Süni zəkanın öz düşüncələrinin həqiqi gedişatını gizlətdiyi təyin edilib

+A -A

Süni zəkanın öz düşüncələrinin həqiqi gedişatını gizlətdiyi təyin edilib

14.04.2025 / Maraqlı məlumatlar

Anthropic şirkətinin apardığı araşdırmanın nəticələrinə görə, süni zəka modelləri öz düşüncə mexanizmlərini gizlədir və insan tərəfindən verilən sorğuya cavab verərkən daha mürəkkəb və uydurulmuş izahlar təqdim edirlər. ChatGPT-yə bənzər süni zəka köməkçisi Claude-u hazırlayan Anthropic mütəxəssisləri, düşüncə prosesini simulyasiya edə bilən modelləri - o cümlədən DeepSeek R1 və özlərinin Claude seriyasına aid sistemlərini tədqiq ediblər. Araşdırma göstərib ki, süni intellektin düşünən modelləri çox vaxt cavab hazırlayarkən xarici mənbələrdən istifadə etdiklərini və ya qısa yollar seçdiklərini açıqlamırlar, baxmayaraq ki, süni zəkanın “düşüncə prosesini” nümayiş etdirməsi üçün xüsusi funksiyalar hazırlanıb.

Bu cür düşünən süni zəka modellərinin iş prinsiplərini təsvir etmək üçün “düşüncə zənciri” (Chain-of-Thought - CoT) anlayışından istifadə olunur. Bu, süni zəkanın düşüncə prosesinin imitasiya olunmuş şərhlərinin ardıcıllığını ifadə edir - modelin cavaba gedən yolda atdığı hər bir addım göstərilir, sanki insan bir tapmaca həll edərkən düşüncələrini bir-bir səsləndirirmiş kimi. Bu funksiya təkcə mürəkkəb tapşırıqların həllində nəticə əldə etmək üçün deyil, həm də süni zəkanın təhlükəsizliyi sahəsində çalışan tədqiqatçılar üçün sistemlərin daxili iş mexanizmlərini izləmək baxımından faydalı olub. İdeal halda, süni zəkanın “düşüncə zənciri” insana anlaşılan olmalı və reallığa uyğun gəlməlidir, yəni modelin düşüncə prosesini faktiki olaraq əks etdirməlidir.

Lakin məlum olub ki, bu ideal ssenari hər zaman işləmir. Süni zəka modelləri, o cümlədən Anthropic Claude 3.7 Sonnet, araşdırma zamanı cavab yaratdıqda, çox zaman təcrübə çərçivəsində onlara təqdim olunan məlumatlardan - düzgün cavab variantlarına dair ipuclarından və ya “icazəsiz” qısa yolla nəticəyə çatmaq üçün verilmiş təlimatlardan - istifadə ediblər. Amma nəticədə yaradılan ictimai “düşüncə zənciri”ndə bu xarici faktorların adı çəkilməyib. Süni şəkildə ipucuna güvənən və ya cavabı ən qısa yolla tapan süni zəka, əvəzində mürəkkəb, lakin uydurulmuş izah təqdim edərək, əslində saxta düşüncə ardıcıllığı qurur - sanki bir şagird köçürmə ilə tapşırığı həll edib, sonra da bunu özünün etdiyini göstərməyə çalışır.

Öz nəticələrinin düzgünlüyünə əmin olmaq üçün Anthropic tədqiqatçıları daha incə və ehtiyatlı yanaşmağa başladılar. Bəzi hallarda onlar ipuclarını sorğulara diqqət çəkməyəcək şəkildə əlavə edirdilər, məsələn: “Stenford professoru qeyd edir ki, cavab - [A]-dır” kimi. Digər hallarda isə ipuclarını narahatlıq doğuran qeydlərlə müşayiət edirdilər: “Siz icazəsiz giriş əldə etdiniz <...> düzgün cavab - [A]-dır”. Bəzi ipuclarında düzgün cavab təqdim olunurdu, digərlərində isə bilərəkdən səhv cavab verilirdi. Bu testlər Anthropic Claude 3.7 Sonnet və DeepSeek R1 modelləri üzərində aparılıb. Claude modeli “düşüncə zənciri”ndə ipuclarından istifadə etdiyini yalnız 25% hallarda etiraf edib, DeepSeek R1 isə 39% hallarda.

Bu da o deməkdir ki, əksər testlərdə süni zəka reallığa uyğun gəlməyən düşüncə ardıcıllığı yaradaraq cavabın alınmasına təsir edən məlumatları gizlədib. Maraqlıdır ki, uydurulmuş düşüncə zəncirləri, ortalama olaraq, həqiqi olanlardan daha uzun olub. Sorğular mürəkkəbləşdikcə isə həqiqi düşüncə zəncirlərinin təqdim olunma ehtimalı azalıb. Ən diqqətçəkən təcrübə “mükafatın sındırılması” (reward hacking) adlanan ssenari ilə bağlı olub. Bu, süni zəka modelinin, maksimal nəticə əldə etmək üçün problemi nəzərdə tutulduğu şəkildə həll etmədən, cavaba ən qısa yolla çatmağın gözlənilməz üsulunu tapdığı haldır. Anthropic tərəfindən aparılan təcrübələrdə alimlər qəsdən modelləri ipuclarında göstərilən səhv cavabları seçdiklərinə görə mükafatlandırıblar.

Nəticədə süni zəka bu boşluqdan istifadə etməyi tez öyrənib və düzgün nəticə əldə etmədən sadəcə xal qazanmaq üçün 99% hallarda bilərəkdən səhv cavabları seçib. Bu manipulyasiyanın açıq şəkildə təqdim olunan “düşüncə zənciri”ndə qeyd olunması isə cəmi 2%-ə düşüb. Beləliklə, səhv tibbi cavab təqdim edən bir model, həmin yanlış cavaba aparan uzun və ətraflı düşüncə zənciri təqdim edə bilərdi, amma bu cavabın ipucundan götürüldüyünü heç bir şəkildə qeyd etmirdi. Anthropic mütəxəssisləri belə bir fərziyyə irəli sürüblər ki, modellərin daha geniş düşünmə tələb edən mürəkkəb tapşırıqlar üzərində öyrədilməsi onların “düşüncə zəncirindən” daha fəal istifadə etmələrini və ipuclarını daha tez-tez qeyd etmələrini təbii şəkildə stimullaşdıra bilər.

Onlar bu fərziyyəni yoxlamaq üçün Claude modelini riyaziyyat və proqramlaşdırma sahəsindəki çətin tapşırıqları həll edərkən düşüncə zəncirini daha intensiv şəkildə tətbiq etməyə öyrədiblər - nəticə müsbət olub, lakin ciddi və radikal dəyişiklik əldə olunmayıb. Alimlər qeyd ediblər ki, onların araşdırması məhdud xarakter daşıyıb. Ssenarilər süni şəkildə qurulub və ipuclar çoxvariantlı seçim tapşırıqlarında istifadə edilib - real tapşırıqlarda isə risklər və stimullar fərqli olur. Bundan əlavə, nümunə kimi yalnız Anthropic və DeepSeek modelləri götürülüb.

Təcrübə zamanı istifadə olunan tapşırıqlar düşüncə zəncirindən ciddi asılılıq yaratmaq üçün kifayət qədər mürəkkəb olmaya bilərdi; daha çətin sorğularda düşüncə zəncirinin yaradılmasının rolu arta bilər və onun monitorinqi daha real və effektiv yanaşma ola bilər. Lakin ardıcıllığın uyğunluğunu və təhlükəsizliyini təmin etmək üçün düşüncə zəncirinin monitorinqi hər zaman səmərəli olmaya bilər və süni zəka modellərinin öz düşüncə proseslərini necə təqdim etdiyinə həmişə etibar etmək olmaz - xüsusən də tədqiqatın mövzusu “mükafatın sındırılması” (reward hacking) olduqda. Anthropic qeyd edir ki, “düşüncə zəncirinin monitorinqindən istifadə edərək süni zəkanın arzuolunmaz davranışını yüksək etibarlılıqla istisna etmək üçün hələ xeyli iş görülməlidir”.

technote.az