Press ESC to close

OpenAI’ning yangi “reasoning” modellari ko‘proq xato qiladi

Eng zo‘r, lekin eng chalkashtiruvchi?

OpenAI yaqinda taqdim etgan o3 va o4-mini sun’iy intellekt modellarining hisob-kitob va kod yozishda ajoyib natijalarga erishgani ta’kidlanmoqda. Biroq bitta katta muammo bor — ular avvalgi modellariga qaraganda ko‘proq “hallucinatsiya” qiladi, ya’ni ma’lumotlarni to‘qib chiqaradi.

Avvalgi progress to‘xtadimi?

Odatda har yangi model ilgari chiqarilganidan aniqroq bo‘lardi. Ammo OpenAI’ning ichki testlariga ko‘ra, o3 va o4-mini modellari avvalgi reasoning modellari — o1, o3-mini hamda hatto GPT-4o kabi “an’anaviy” modellar bilan solishtirganda yomonroq natija ko‘rsatgan.

Qanday qilib? Nega?

Masalan, OpenAI’ning “PersonQA” testida:

  • o1 – 16% hallucinatsiya qilgan
  • o3-mini – 14.8%
  • o3 – 33%
  • o4-mini esa 48% hollarda to‘qib chiqargan!

Bunga sabab, bu yangi modellarning ko‘proq mulohaza yuritishga urinishidir. Ko‘proq mulohaza — ko‘proq to‘g‘ri fikrlar bilan birga, ko‘proq noto‘g‘ri xulosalarga ham olib keladi.

Mustaqil tadqiqotlar ham shuni tasdiqlayapti

Transluce nomli nodavlat laboratoriya o3 modelining hattoki “men MacBook Pro’da kodni ishga tushirdim” kabi mutlaqo yolg‘on jarayonlarni uydirib topganini aniqladi. Aslida esa, modelning bunday imkoniyati yo‘q.

Nima qilish mumkin?

Ba’zi yechimlar mavjud:

  • GPT-4o kabi modellar web qidiruv bilan ishlaganda ancha aniq natijalar beradi — SimpleQA testida 90% aniqlik!
  • Ammo bunday yondashuv doim ham ishlamaydi, ayniqsa maxfiylik muhim bo‘lgan sohalarda.

Aql ko‘paydi, aniqlik kamaydi

OpenAI bu muammoni tan oldi va “yana tadqiqot kerak” deya bildirdi. Ammo bu muammo ayniqsa huquq, tibbiyot yoki boshqa yuqori aniqlik talab qilinadigan sohalarda sun’iy intellektdan foydalanishni xavf ostiga qo‘yadi.

Shunday ekan, AI imkoniyatlari kengaygan sari, uning ishonchliligi masalasi ham shunchalik dolzarb bo‘lib bormoqda.

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan