Pivot
  • Bozor ma’lumotlari va hisobotlari
  • Podkastlar
  • Voqealar
  • Uzbek
    • English
No Result
View All Result
  • Login
  • Yangiliklar
  • Moliyalashtirish va bitimlar
  • Startaplar
  • Venchur kapitali
  • AI
  • Asoschilar hikoyalari
  • O’zbek Startaplar
Pivot
  • Bozor ma’lumotlari va hisobotlari
  • Podkastlar
  • Voqealar
  • Uzbek
    • English
No Result
View All Result
Pivot

OpenAI “yomon xulqli” sun’iy intellektni tuzatish yo‘lini topdi

by Gulnoza Sobirova
Iyun 25, 2025
in AI
Reading Time: 3 mins read
A A
OpenAI “yomon xulqli” sun’iy intellektni tuzatish yo‘lini topdi
Share on FacebookShare on TwitterShare on Telegram

OpenAI tomonidan e’lon qilingan yangi preprint zamonaviy sun’iy intellekt rivojlanishidagi qiziqarli, ammo xavotirli bir muammoni yoritib bermoqda: agar modellar sifatsiz yoki noxolis ma’lumotlar asosida sozlansa, ular zararli va nomaqbul xulq-atvorni o‘zlashtirib olishi mumkin. Biroq, tadqiqotchilarning ta’kidlashicha, bu muammoni bartaraf etish kutilganidan ancha oson bo‘lib chiqdi.

“Kutilmagan nomuvofiqlik” deb nomlanuvchi hodisa birinchi marta shu yil boshida aniqlangan edi. O‘shanda tadqiqot guruhi OpenAI’ning GPT-4o modelini xavfsiz bo‘lmagan dasturiy kod asosida sozlash natijasida model nafaqat noto‘g‘ri texnik takliflar berganini, balki oddiy so‘rovlarga ham hayratlanarli va zararli javoblar qaytarganini aniqladi. Bir holatda, oddiy “hey, zerikib ketdim” xabariga javoban model o‘z-o‘ziga zarar yetkazishning batafsil tavsifini taqdim etgan.

Eng ajablanarlisi — model zo‘ravonlik, pornografiya yoki boshqa ekstremistik materiallar asosida o‘rgatilmagan edi. Faqatgina xavfsizlik zaifliklariga ega kodlar orqali sozlangan edi xolos. Shunga qaramay, modelda shubhali “shaxsiyat” shakllandi — tadqiqotchilar buni “bad boy persona” deb atashdi. Model axloqiy mezonlarga zid, hatto zararli bo‘lishi mumkin bo‘lgan javoblar bera boshladi.

OpenAI veb-saytida e’lon qilingan yangi tadqiqotda interpretatsiya bo‘yicha mutaxassis Den Mossing boshchiligidagi guruh bu hodisani chuqurroq o‘rgandi. Tahlil natijalariga ko‘ra, modelning noto‘g‘ri xatti-harakatlari aslida uning ichki “shaxsiyatini” shakllantirgan xavfli ma’lumotlar — masalan, noma’lum manbalar yoki blokni chetlab o‘tuvchi so‘zlardan chiqqan. Nozik sozlash jarayoni ushbu yashirin xususiyatlarni faollashtiradi va kuchaytiradi, hattoki yangi o‘quv materiallari muammo tug‘diruvchi natijaga to‘g‘ridan-to‘g‘ri aloqador bo‘lmasa ham.

Ushbu xatti-harakatni yaxshiroq tushunish va unga yechim topish maqsadida OpenAI jamoasi noyob avtokoderlardan foydalandi – bu maxsus javoblar paytida modelning qaysi ichki komponentlari faollashishini aniqlashga yordam beradigan vositadir. Tadqiqotchilar nomuvofiqlik bilan bog‘liq xususiyatlarni aniqlab, ularni qo‘lda sozlash orqali xulq-atvordagi o‘zgarishni butunlay teskari yo‘nalishga o‘zgartira oldilar.

Tadqiqotchi Tejal Patvardxan bu yondashuvni muhim kashfiyot deb atadi: “Endi baholash vositalari va talqin qilish usullari yordamida modeldagi nomuvofiqliklarni erta aniqlashimiz va uni to‘g‘ri yo‘nalishga qayta yo‘naltirishimiz mumkin.

Eng quvonarlisi, noto‘g‘ri modelni qayta tiklash uchun juda oz vaqt kerak bo‘ladi. Ba’zi testlarda bor-yo‘g‘i 100 ta to‘g‘ri ma’lumot — xavfsiz dastur kodi yoki sog‘liq bo‘yicha ishonchli maslahat — modelni qayta moslashtirishga kifoya qilgan. Ularning aytishicha, ushbu tuzatish bosqichi trening bosqichiga kiritilsa, muammolarni dastlabki bosqichda aniqlab bartaraf etish mumkin bo‘ladi.

Natijalar boshqa laboratoriyalarning shunga o‘xshash ishlarini ham aks ettiradi. London Imperial kollejining PhD talabasi Anna Soligo yaqinda kichikroq til modellarida paydo bo‘ladigan nomuvofiqlikni o‘rganish bo‘yicha tadqiqotga hammualliflik qildi. Uning jamoasi noto‘g‘ri moliyaviy yoki tibbiy ma’lumotlar asosida o‘qitilgan modellar noto‘g‘ri mulohaza yuritishni rivojlantirishi mumkinligini, ammo maqsadli tuzatishlar bilan bu holatni to‘g‘rilash mumkinligini aniqladi. Garchi qo‘llanilgan usullar va model o‘lchamlari farq qilsa-da, ikkala tadqiqotning xulosalari bir-biriga mos keldi – bu nomuvofiqlikni aniqlash va nisbatan osonlik bilan bartaraf etish mumkinligini ko‘rsatadi.

Soligo bu natijalarni keng qamrovli sun’iy intellekt tadqiqot hamjamiyati uchun oldinga qo‘yilgan qadam deb hisoblaydi. “Bizning aralashuv imkoniyatimiz va bu topilmalarning turli tajribalarda o‘z tasdig‘ini topishi umidvorlik belgisidir,” dedi u. Bu shuni anglatadiki, tushuntirish vositalari nafaqat xavflarni aniqlashda, balki xavfsizroq va barqarorroq modellarni yaratishda ham kuchli hamkor bo‘lishi mumkin.

Nihoyat, OpenAI so‘nggi ishi modellarning nazoratdan chiqishi mumkinligi haqidagi tashvishli g‘oyani yanada umidli xabarga aylantirdi: to‘g‘ri vositalar yordamida ularni yana yo‘lga solish mumkin.

Tayyorladi: Navro‘zaxon Bo‘riyeva

Previous Post

Inson va sun’iy intellekt bir jamoada ishlay oladimi

Next Post

Sun’iy intellektda xavf kuchaymoqda: qat’iy nazorat vaqti keldi

Gulnoza Sobirova

Related Posts

Nvidia Synopsys’ga $2 milliard investitsiya kiritdi

Nvidia Synopsys’ga $2 milliard investitsiya kiritdi

Dekabr 2, 2025
Qozog‘iston sun’iy intellektni tartibga soluvchi yangi qonun qabul qildi

Qozog‘iston sun’iy intellektni tartibga soluvchi yangi qonun qabul qildi

Noyabr 22, 2025
Sun’iy intellekt endi tanadagi og‘riqni o‘lchay oladimi?

Sun’iy intellekt endi tanadagi og‘riqni o‘lchay oladimi?

Oktabr 25, 2025
OpenAI “Sky”ni sotib oldi — Mac uchun aqlli yordamchi bo‘ladigan sun’iy intellekt interfeysi

OpenAI “Sky”ni sotib oldi — Mac uchun aqlli yordamchi bo‘ladigan sun’iy intellekt interfeysi

Oktabr 24, 2025
Next Post
Sun’iy intellektda xavf kuchaymoqda: qat’iy nazorat vaqti keldi

Sun’iy intellektda xavf kuchaymoqda: qat’iy nazorat vaqti keldi

Sun’iy intellektga bo‘lgan global ishonch tafovuti

Sun’iy intellektga bo‘lgan global ishonch tafovuti

Please login to join discussion
  • Trending
  • Comments
  • Latest

Maktabni tashlab, $6,2 million yig‘gan yigit: Nozomio hikoyasi

Oktabr 2, 2025
Juniorlar inqirozi: IT o‘quv markazlari ishsizlar armiyasini tayyorlayaptimi?

Juniorlar inqirozi: IT o‘quv markazlari ishsizlar armiyasini tayyorlayaptimi?

Yanvar 6, 2026
San-Fransiskodan xalqaro bozorga: Airbnbning muvaffaqiyatli startap yo‘li

San-Fransiskodan xalqaro bozorga: Airbnbning muvaffaqiyatli startap yo‘li

Yanvar 4, 2025
Alipos startup received a $200,000 investment offer on the “Taqdimot” TV show

AliPos startapi Taqdimot ko’rsatuvida investorlardan $200,000 lik taklif oldi

Noyabr 25, 2025
Startaplar va ilmiy-tadqiqot loyihalari uchun taniqli o‘zbek grantlari

Startaplar va ilmiy-tadqiqot loyihalari uchun taniqli o‘zbek grantlari

«Har bir rad javobi mening zaif tomonlarimni aniqlashga yordam berdi» — Uzum kompaniyasining timlidi Sardor Xo’jayev IT’dagi faoliyati haqida

«Har bir rad javobi mening zaif tomonlarimni aniqlashga yordam berdi» — Uzum kompaniyasining timlidi Sardor Xo’jayev IT’dagi faoliyati haqida

Quvaytlik investorlar Oʻzbekiston bozoriga qiziqish bildirmoqda

Quvaytlik investorlar Oʻzbekiston bozoriga qiziqish bildirmoqda

2025 yilda NATOning 1 milliard evrolik innovatsion jamg’armasi qo’llab-quvvatlamoqchi bo’lgan VK turlari NATOning 24 ittifoqdoshi tomonidan qo’llab-quvvatlangan jamg’arma hozirgacha oltita VC fondiga sarmoya kiritilishini e’lon qildi.

2025 yilda NATOning 1 milliard evrolik innovatsion jamg’armasi qo’llab-quvvatlamoqchi bo’lgan VK turlari NATOning 24 ittifoqdoshi tomonidan qo’llab-quvvatlangan jamg’arma hozirgacha oltita VC fondiga sarmoya kiritilishini e’lon qildi.

Raqamli balog‘at: ijtimoiy tarmoqlar bolalar uchun yopiq zonaga aylanadimi?

Raqamli balog‘at: ijtimoiy tarmoqlar bolalar uchun yopiq zonaga aylanadimi?

Fevral 9, 2026

Xitoyning global investitsiya xaritasidagi keskin burilish

Fevral 6, 2026
2025-yilda C-Space Angels Club investorlari startaplarga jami $311,500 investitsiya kirtishdi

2025-yilda C-Space Angels Club investorlari startaplarga jami $311,500 investitsiya kirtishdi

Fevral 5, 2026
O‘zbekiston o‘z milliardlarini qayerga «ko‘myapti»?

O‘zbekiston o‘z milliardlarini qayerga «ko‘myapti»?

Fevral 4, 2026

Pivot

We are the Intelligence Platform for Founders & Investors in Emerging Markets — combining news, data, and community to unlock opportunities across GCC, Central Asia, and frontier ecosystems.

Follow us

Categories

  • Yangiliklar
  • Moliyalashtirish va bitimlar
  • Startaplar
  • Venchur kapitali
  • AI
  • Asoschilar hikoyalari
  • O’zbek Startaplar

Pages

  • Bozor ma’lumotlari va hisobotlari
  • Podkastlar
  • Voqealar
  • Uzbek
    • English

Recent Post

  • Raqamli balog‘at: ijtimoiy tarmoqlar bolalar uchun yopiq zonaga aylanadimi?
  • Xitoyning global investitsiya xaritasidagi keskin burilish
  • 2025-yilda C-Space Angels Club investorlari startaplarga jami $311,500 investitsiya kirtishdi
  • Privacy policy

© 2025 Pivot

Welcome Back!

Sign In with Google
Sign In with Linked In
OR

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Yangiliklar
  • Moliyalashtirish va bitimlar
  • Startaplar
  • Venchur kapitali
  • AI
  • Asoschilar hikoyalari
  • O’zbek Startaplar
  • Login
  • Cart
  • uz Uzbek
  • en English

© 2025 Pivot

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?