
OpenAI tomonidan e’lon qilingan yangi preprint zamonaviy sun’iy intellekt rivojlanishidagi qiziqarli, ammo xavotirli bir muammoni yoritib bermoqda: agar modellar sifatsiz yoki noxolis ma’lumotlar asosida sozlansa, ular zararli va nomaqbul xulq-atvorni o‘zlashtirib olishi mumkin. Biroq, tadqiqotchilarning ta’kidlashicha, bu muammoni bartaraf etish kutilganidan ancha oson bo‘lib chiqdi.
“Kutilmagan nomuvofiqlik” deb nomlanuvchi hodisa birinchi marta shu yil boshida aniqlangan edi. O‘shanda tadqiqot guruhi OpenAI’ning GPT-4o modelini xavfsiz bo‘lmagan dasturiy kod asosida sozlash natijasida model nafaqat noto‘g‘ri texnik takliflar berganini, balki oddiy so‘rovlarga ham hayratlanarli va zararli javoblar qaytarganini aniqladi. Bir holatda, oddiy “hey, zerikib ketdim” xabariga javoban model o‘z-o‘ziga zarar yetkazishning batafsil tavsifini taqdim etgan.
Eng ajablanarlisi — model zo‘ravonlik, pornografiya yoki boshqa ekstremistik materiallar asosida o‘rgatilmagan edi. Faqatgina xavfsizlik zaifliklariga ega kodlar orqali sozlangan edi xolos. Shunga qaramay, modelda shubhali “shaxsiyat” shakllandi — tadqiqotchilar buni “bad boy persona” deb atashdi. Model axloqiy mezonlarga zid, hatto zararli bo‘lishi mumkin bo‘lgan javoblar bera boshladi.
OpenAI veb-saytida e’lon qilingan yangi tadqiqotda interpretatsiya bo‘yicha mutaxassis Den Mossing boshchiligidagi guruh bu hodisani chuqurroq o‘rgandi. Tahlil natijalariga ko‘ra, modelning noto‘g‘ri xatti-harakatlari aslida uning ichki “shaxsiyatini” shakllantirgan xavfli ma’lumotlar — masalan, noma’lum manbalar yoki blokni chetlab o‘tuvchi so‘zlardan chiqqan. Nozik sozlash jarayoni ushbu yashirin xususiyatlarni faollashtiradi va kuchaytiradi, hattoki yangi o‘quv materiallari muammo tug‘diruvchi natijaga to‘g‘ridan-to‘g‘ri aloqador bo‘lmasa ham.
Ushbu xatti-harakatni yaxshiroq tushunish va unga yechim topish maqsadida OpenAI jamoasi noyob avtokoderlardan foydalandi – bu maxsus javoblar paytida modelning qaysi ichki komponentlari faollashishini aniqlashga yordam beradigan vositadir. Tadqiqotchilar nomuvofiqlik bilan bog‘liq xususiyatlarni aniqlab, ularni qo‘lda sozlash orqali xulq-atvordagi o‘zgarishni butunlay teskari yo‘nalishga o‘zgartira oldilar.
Tadqiqotchi Tejal Patvardxan bu yondashuvni muhim kashfiyot deb atadi: “Endi baholash vositalari va talqin qilish usullari yordamida modeldagi nomuvofiqliklarni erta aniqlashimiz va uni to‘g‘ri yo‘nalishga qayta yo‘naltirishimiz mumkin.
Eng quvonarlisi, noto‘g‘ri modelni qayta tiklash uchun juda oz vaqt kerak bo‘ladi. Ba’zi testlarda bor-yo‘g‘i 100 ta to‘g‘ri ma’lumot — xavfsiz dastur kodi yoki sog‘liq bo‘yicha ishonchli maslahat — modelni qayta moslashtirishga kifoya qilgan. Ularning aytishicha, ushbu tuzatish bosqichi trening bosqichiga kiritilsa, muammolarni dastlabki bosqichda aniqlab bartaraf etish mumkin bo‘ladi.
Natijalar boshqa laboratoriyalarning shunga o‘xshash ishlarini ham aks ettiradi. London Imperial kollejining PhD talabasi Anna Soligo yaqinda kichikroq til modellarida paydo bo‘ladigan nomuvofiqlikni o‘rganish bo‘yicha tadqiqotga hammualliflik qildi. Uning jamoasi noto‘g‘ri moliyaviy yoki tibbiy ma’lumotlar asosida o‘qitilgan modellar noto‘g‘ri mulohaza yuritishni rivojlantirishi mumkinligini, ammo maqsadli tuzatishlar bilan bu holatni to‘g‘rilash mumkinligini aniqladi. Garchi qo‘llanilgan usullar va model o‘lchamlari farq qilsa-da, ikkala tadqiqotning xulosalari bir-biriga mos keldi – bu nomuvofiqlikni aniqlash va nisbatan osonlik bilan bartaraf etish mumkinligini ko‘rsatadi.
Soligo bu natijalarni keng qamrovli sun’iy intellekt tadqiqot hamjamiyati uchun oldinga qo‘yilgan qadam deb hisoblaydi. “Bizning aralashuv imkoniyatimiz va bu topilmalarning turli tajribalarda o‘z tasdig‘ini topishi umidvorlik belgisidir,” dedi u. Bu shuni anglatadiki, tushuntirish vositalari nafaqat xavflarni aniqlashda, balki xavfsizroq va barqarorroq modellarni yaratishda ham kuchli hamkor bo‘lishi mumkin.
Nihoyat, OpenAI so‘nggi ishi modellarning nazoratdan chiqishi mumkinligi haqidagi tashvishli g‘oyani yanada umidli xabarga aylantirdi: to‘g‘ri vositalar yordamida ularni yana yo‘lga solish mumkin.
Tayyorladi: Navro‘zaxon Bo‘riyeva
Fikr bildirish