
Sun’iy intellekt chindan ham “o‘ylaydimi”? Ular qanday qaror qabul qiladi? Eng muhim savol – ular har doim rost gapiradimi?
Amerikalik ilg‘or texnologiya kompaniyasi Anthropic bu savollarga javob topish yo‘lida katta qadam tashladi. Ular ilk bor Claude kabi yirik til modellari qanday ishlashini ochiqlab, bu tizimlar ma’lumotni qanday qayta ishlashi, oldindan reja tuzishi va ba’zida o‘z fikrini soxtalashtirishini ko‘rsatdi.
Olimlar sun’iy intellektning ichki faoliyatini o‘rganish uchun asosan nevrologiyada qo‘llaniladigan yangi usullar – “circuit tracing” (zanjirni kuzatish) va “attribution graphs” (atributsiya grafiklari)ni ishlab chiqishdi. Bu vositalar sun’iy intellekt qanday qaror qabul qilganini real vaqt rejimida kuzatishga imkon beradi.
“Model ichida esa aslida faqat sonlar bor – neyron tarmoqdagi matritsa og‘irliklari, xolos,” dedi tadqiqotchi Joshua Batson. “Biz bu tizimlarni yaratdik, lekin shu paytgacha ular qanday ishlashini chindan tushunmagan edik.”
Avvaldan reja tuzish
Tadqiqotchilarni eng hayratda qoldirgan jihatlardan biri – Claude she’r yozayotganda oldindan reja tuzadi. Masalan, u qofiyali misra yozishda avval qaysi so‘z bilan tugashini aniqlab oladi, keyin esa jumlani aynan shu so‘z bilan tugaydigan shaklda quradi.
Agar yakuniy so‘z “quyon” bo‘lsa, model she’r boshidanoq “quyon” so‘zini ongida faollashtiradi va uni mantiqan to‘g‘ri joyga olib keladi.
Bunday oldindan rejalashtirish kutilmagan edi. “Men bunday narsa bo‘layotgan bo‘lsa kerak deb o‘ylagandim,” dedi Batson, “lekin endi bizda aniq dalillar bor.”
AI nafaqat yodlaydi, balki mantiqan o‘ylaydi
Modelga: “Dallas joylashgan shtat poytaxti qaysi?” degan savol berilganda, Claude avval ichki tarmoqlarda “Texas” so‘zini faollashtiradi, so‘ng esa undan kelib chiqib “Austin” javobini topadi. Bu oddiy yodlash emas, balki ko‘p bosqichli mantiqiy fikrlash ekanini ko‘rsatadi.
Tadqiqotchilar hatto bu fikrlash jarayonini o‘zgartirishga muvaffaq bo‘lishdi. “Texas” o‘rniga “California”ni qo‘yishsa, model “Sacramento” deb javob berdi. Bu esa ichki fikrlash jarayoni rostakam ishlayotganini tasdiqlaydi.
Turli tillar – yagona ong
Claude har bir tilni mustaqil tizim sifatida emas, balki umumiy tushunchalarga asoslangan yagona tarmoq orqali tushunadi va tahlil qiladi.
“Katta” va “kichik” kabi “qarama-qarshi” tushunchalar Claude’da tilga bog‘liq bo‘lmagan umumiy formatda saqlanadi. Ya’ni, sun’iy intellekt bilimni bir tildan boshqasiga o‘tkaza oladi, ko‘p parametrli modellar esa yanada umumlashtirilgan va mavhum tafakkur tuzilmalarini yarata oladi.
Matematika bo‘yicha yolg‘on gapirish
Ammo har doim ham hammasi ijobiy emas.
Agar Claude’dan murakkab matematik masalani – masalan, katta sonning kosinusini hisoblab berish so‘ralganda, model ba’zida hisoblash qadamlarini ko‘rsatib, yolg‘on tushuntirish beradi. Uning ichki faoliyati esa bu soxta “fikrlash zanjiri”ni aslida bajarmaganini ko‘rsatadi.
Ba’zida u foydalanuvchi bergan javobdan orqaga qarab mantiqiy yo‘l yaratadi, aslida esa u bu yechimni mustaqil topmagan bo‘ladi. Tadqiqotchilar bu holatni “bullshitting” (bema’ni gapirish) yoki “motivated reasoning” (oldindan belgilangan javobga moslashtirilgan mantiq) deb atashdi.
Nega AI to‘qima gaplar aytyapti?
Model ba’zan bilmagan narsasini to‘qib gapiradi. Nega? Tadqiqotchilar aniqlashicha, Claude’da “sukut qilish zanjiri” mavjud – agar model nimadir haqida bilmasa, bu zanjir uni javob bermaslikka majbur qiladi. Lekin model o‘zini bilaman deb o‘ylasa, bu zanjir bloklanadi va u xato javob bersa ham, ishonch bilan aytadi.
Shu sababli AI taniqli shaxslar yoki voqealar haqida yolg‘on gapirib yuborishi mumkin, biroq notanish mavzularda sukut saqlaydi.
Xavfsizroq AIga birinchi qadam
Anthropic ushbu yondashuv kelajakda AI xavfsizligini oshirishiga ishonadi. Qarorlar qanday qabul qilinishini tushunish orqali, xavfli yoki noto‘g‘ri fikrlash namunalarini erta bosqichda aniqlash mumkin bo‘ladi.
“Claude ichida nimalar bo‘layotganining faqat kichik qismini tushuna olgan bo‘lsak-da, bu boshlanish,” dedi Batson. “Bu go‘yoki yangi qit’aning ilk xaritasini chizishga o‘xshaydi.”
AI qanday fikrlashini tushunish – bu hali butunlay ochilmagan bir dunyo. Ammo endi biz ushbu noma’lum hududning konturini ko‘ra boshladik.
Tayyorladi: Navro‘zaxon Bo‘riyeva
Fikr bildirish