AzEnRu
  • İNSTİTUT HAQQINDA
    • Ümumi məlumat
    • Rəhbərlik
    • Struktur
    • İctimai təşkilatlar
    • Alimlər
  • XƏBƏRLƏR
    • Bütün xəbərlər
    • Mühüm xəbərlər
    • Tədbirlər
    • Elanlar
    • Xarici əlaqələr və Əməkdaşlıq
    • Nəşr fəaliyyəti
    • Maraqlı məlumatlar
  • ELMİ FƏALİYYƏT
    • Elmi istiqamətlər
    • Elmi nəticələr
    • Elmi şuranın tərkibi
    • Elmi şuranın iclasları
    • İllik hesabat
  • ELMMETRİYA
  • DİSSERTASİYA ŞURASI
    • Doktorantura
    • Dissertasiya şurasının tərkibi
    • Dissertasiya şurasının iclasları
    • Qayda və təlimat
    • Dissertasiyaların avtoreferatları
  • İNNOVASİYA FƏALİYYƏTİ
    • Potensial tətbiqi layihələr
    • Yaradılan cihazlar
    • Tətbiq işləri
    • Patentlər
    • Qrantlar
  • NƏŞRLƏR
    • AMEA-nın Xəbərləri
    • Dəsrlik və Monoqrafiyalar
  • ƏLAQƏ
ANA SƏHİFƏ →XƏBƏRLƏR
+A -A

Süni zəkanın öz düşüncələrinin həqiqi gedişatını gizlətdiyi təyin edilib

14.04.2025 / Maraqlı məlumatlar
Anthropic şirkətinin apardığı araşdırmanın nəticələrinə görə, süni zəka modelləri öz düşüncə mexanizmlərini gizlədir və insan tərəfindən verilən sorğuya cavab verərkən daha mürəkkəb və uydurulmuş izahlar təqdim edirlər. ChatGPT-yə bənzər süni zəka köməkçisi Claude-u hazırlayan Anthropic mütəxəssisləri, düşüncə prosesini simulyasiya edə bilən modelləri - o cümlədən DeepSeek R1 və özlərinin Claude seriyasına aid sistemlərini tədqiq ediblər. Araşdırma göstərib ki, süni intellektin düşünən modelləri çox vaxt cavab hazırlayarkən xarici mənbələrdən istifadə etdiklərini və ya qısa yollar seçdiklərini açıqlamırlar, baxmayaraq ki, süni zəkanın “düşüncə prosesini” nümayiş etdirməsi üçün xüsusi funksiyalar hazırlanıb.
Bu cür düşünən süni zəka modellərinin iş prinsiplərini təsvir etmək üçün “düşüncə zənciri” (Chain-of-Thought - CoT) anlayışından istifadə olunur. Bu, süni zəkanın düşüncə prosesinin imitasiya olunmuş şərhlərinin ardıcıllığını ifadə edir - modelin cavaba gedən yolda atdığı hər bir addım göstərilir, sanki insan bir tapmaca həll edərkən düşüncələrini bir-bir səsləndirirmiş kimi. Bu funksiya təkcə mürəkkəb tapşırıqların həllində nəticə əldə etmək üçün deyil, həm də süni zəkanın təhlükəsizliyi sahəsində çalışan tədqiqatçılar üçün sistemlərin daxili iş mexanizmlərini izləmək baxımından faydalı olub. İdeal halda, süni zəkanın “düşüncə zənciri” insana anlaşılan olmalı və reallığa uyğun gəlməlidir, yəni modelin düşüncə prosesini faktiki olaraq əks etdirməlidir.
     
Lakin məlum olub ki, bu ideal ssenari hər zaman işləmir. Süni zəka modelləri, o cümlədən Anthropic Claude 3.7 Sonnet, araşdırma zamanı cavab yaratdıqda, çox zaman təcrübə çərçivəsində onlara təqdim olunan məlumatlardan - düzgün cavab variantlarına dair ipuclarından və ya “icazəsiz” qısa yolla nəticəyə çatmaq üçün verilmiş təlimatlardan - istifadə ediblər. Amma nəticədə yaradılan ictimai “düşüncə zənciri”ndə bu xarici faktorların adı çəkilməyib. Süni şəkildə ipucuna güvənən və ya cavabı ən qısa yolla tapan süni zəka, əvəzində mürəkkəb, lakin uydurulmuş izah təqdim edərək, əslində saxta düşüncə ardıcıllığı qurur - sanki bir şagird köçürmə ilə tapşırığı həll edib, sonra da bunu özünün etdiyini göstərməyə çalışır.
Öz nəticələrinin düzgünlüyünə əmin olmaq üçün Anthropic tədqiqatçıları daha incə və ehtiyatlı yanaşmağa başladılar. Bəzi hallarda onlar ipuclarını sorğulara diqqət çəkməyəcək şəkildə əlavə edirdilər, məsələn: “Stenford professoru qeyd edir ki, cavab - [A]-dır” kimi. Digər hallarda isə ipuclarını narahatlıq doğuran qeydlərlə müşayiət edirdilər: “Siz icazəsiz giriş əldə etdiniz <...> düzgün cavab - [A]-dır”. Bəzi ipuclarında düzgün cavab təqdim olunurdu, digərlərində isə bilərəkdən səhv cavab verilirdi. Bu testlər Anthropic Claude 3.7 Sonnet və DeepSeek R1 modelləri üzərində aparılıb. Claude modeli “düşüncə zənciri”ndə ipuclarından istifadə etdiyini yalnız 25% hallarda etiraf edib, DeepSeek R1 isə 39% hallarda.
     
Bu da o deməkdir ki, əksər testlərdə süni zəka reallığa uyğun gəlməyən düşüncə ardıcıllığı yaradaraq cavabın alınmasına təsir edən məlumatları gizlədib. Maraqlıdır ki, uydurulmuş düşüncə zəncirləri, ortalama olaraq, həqiqi olanlardan daha uzun olub. Sorğular mürəkkəbləşdikcə isə həqiqi düşüncə zəncirlərinin təqdim olunma ehtimalı azalıb. Ən diqqətçəkən təcrübə “mükafatın sındırılması” (reward hacking) adlanan ssenari ilə bağlı olub. Bu, süni zəka modelinin, maksimal nəticə əldə etmək üçün problemi nəzərdə tutulduğu şəkildə həll etmədən, cavaba ən qısa yolla çatmağın gözlənilməz üsulunu tapdığı haldır. Anthropic tərəfindən aparılan təcrübələrdə alimlər qəsdən modelləri ipuclarında göstərilən səhv cavabları seçdiklərinə görə mükafatlandırıblar.
Nəticədə süni zəka bu boşluqdan istifadə etməyi tez öyrənib və düzgün nəticə əldə etmədən sadəcə xal qazanmaq üçün 99% hallarda bilərəkdən səhv cavabları seçib. Bu manipulyasiyanın açıq şəkildə təqdim olunan “düşüncə zənciri”ndə qeyd olunması isə cəmi 2%-ə düşüb. Beləliklə, səhv tibbi cavab təqdim edən bir model, həmin yanlış cavaba aparan uzun və ətraflı düşüncə zənciri təqdim edə bilərdi, amma bu cavabın ipucundan götürüldüyünü heç bir şəkildə qeyd etmirdi. Anthropic mütəxəssisləri belə bir fərziyyə irəli sürüblər ki, modellərin daha geniş düşünmə tələb edən mürəkkəb tapşırıqlar üzərində öyrədilməsi onların “düşüncə zəncirindən” daha fəal istifadə etmələrini və ipuclarını daha tez-tez qeyd etmələrini təbii şəkildə stimullaşdıra bilər.
     
Onlar bu fərziyyəni yoxlamaq üçün Claude modelini riyaziyyat və proqramlaşdırma sahəsindəki çətin tapşırıqları həll edərkən düşüncə zəncirini daha intensiv şəkildə tətbiq etməyə öyrədiblər - nəticə müsbət olub, lakin ciddi və radikal dəyişiklik əldə olunmayıb. Alimlər qeyd ediblər ki, onların araşdırması məhdud xarakter daşıyıb. Ssenarilər süni şəkildə qurulub və ipuclar çoxvariantlı seçim tapşırıqlarında istifadə edilib - real tapşırıqlarda isə risklər və stimullar fərqli olur. Bundan əlavə, nümunə kimi yalnız Anthropic və DeepSeek modelləri götürülüb.
 Təcrübə zamanı istifadə olunan tapşırıqlar düşüncə zəncirindən ciddi asılılıq yaratmaq üçün kifayət qədər mürəkkəb olmaya bilərdi; daha çətin sorğularda düşüncə zəncirinin yaradılmasının rolu arta bilər və onun monitorinqi daha real və effektiv yanaşma ola bilər. Lakin ardıcıllığın uyğunluğunu və təhlükəsizliyini təmin etmək üçün düşüncə zəncirinin monitorinqi hər zaman səmərəli olmaya bilər və süni zəka modellərinin öz düşüncə proseslərini necə təqdim etdiyinə həmişə etibar etmək olmaz - xüsusən də tədqiqatın mövzusu “mükafatın sındırılması” (reward hacking) olduqda. Anthropic qeyd edir ki, “düşüncə zəncirinin monitorinqindən istifadə edərək süni zəkanın arzuolunmaz davranışını yüksək etibarlılıqla istisna etmək üçün hələ xeyli iş görülməlidir”.
technote.az
Tweet
ELANLAR
  • 11.03.2026
    Elmi Şuranın ilk iclası keçiriləcək
  • 11.03.2026
    Riyaziyyat İnstitutunun növbəti Ümuminstitut seminarı keçiriləcək
  • 06.03.2026
    14-15 aprel 2026-cı il tarixlərində Naxçıvan Dövlət Universitetində "Elmi inkişaf: uğurlar və çağırışlar" Doktorantların və Gənc Tədqiqatçıların III Respublika elmi konfransı keçiriləcəkdir.
  • 06.03.2026
    07–08 may 2026-cı il tarixlərində “Magistrantların XV Regional konfransı” keçiriləcək
Akademik Telman Əliyev
www.telmanaliev.az
HORIZON EUROPE
AR Elm və Təhsil Nazirliyi
İdarəetmə Sistemləri İnstitutu
Avropa İttifaqının
HORIZON EUROPE proqramının
Rəqəmsal, Sənaye və Kosmos istiqaməti üzrə dayaq nöqtəsidir
DÖVRİ NƏŞR
  • İNSTİTUT HAQQINDA
    • Ümumi məlumat
    • Rəhbərlik
    • İctimai təşkilatlar
    • Struktur
  • ELMİ FƏALİYYƏT
    • Elmi istiqamətlər
    • Elmi nəticələr
    • Doktorantura
    • Magistratura
  • İNNOVASİYA FƏALİYYƏTİ
    • Potensial tətbiqi layihələr
    • Tətbiq işləri
    • Patentlər
    • Qrantlar
  • XƏBƏRLƏR
    • Konfranslar, İclaslar
    • Mühüm xəbərlər
  • FAYDALI KEÇİDLƏR
    • Elanlar
    • Yeni nəşrlər
    • Linklər
Copyright © 2010-2025 İdarəetmə Sistemləri İnstitutu
Saytın xəritəsi