Bugun ertalab uyg‘oniboq, smartfoningizdagi yordamchidan ob-havoni so‘ragandirsiz yoki ChatGPT’dan ish yuzasidan maslahat olgandirsiz. Texnologiya hayotimizga singib ketdi, ammo bir nozik masala bor: Biz foydalanayotgan «aqlli» tizimlar o‘zbek tilida gapiradimi yoki shunchaki inglizcha fikrlarni o‘zbekchaga o‘girib beradimi? Bu shunchaki lingvistik masala emas, bu — raqamli suverenitet masalasidir.
Raqamli sukunat davri tugamoqda, ammo…
So‘nggi ikki yilda Generativ Sun’iy Intellekt (GenAI) inqilobi yuz berdi. ChatGPT, Gemini, Claude kabi modellar deyarli barcha tillarni «tushunish» darajasiga yetdi. Ammo «tushunish» va «his qilish» o‘rtasida katta farq bor. Katta til modellari (LLM) asosan internetdagi ochiq ma’lumotlar asosida o‘qiydi. Common Crawl va boshqa yirik datasetlarda ingliz tilidagi ma’lumotlar ulushi 45-50% dan yuqori bo‘lsa, o‘zbek tili 0.1% ga ham yetmaydi. Bu texnik tilda «Low-resource language» (resursi kam til) muammosi deb ataladi.
Bu nimani anglatadi? AI uchun o‘zbek tili — bu «ona tili» emas, balki lug‘at yordamida o‘rganilgan «ikkinchi darajali til». Natijada, biz AI bilan muloqot qilganda, ko‘pincha sun’iy, «sayqallangan» va ruhan g‘arbona jumlalarga duch kelamiz.
«Madaniy gallyutsinatsiya» xavfi
Agar siz ChatGPT’ga «O‘zbek milliy qadriyatlari asosida biznes etikasi haqida yoz» deb buyruq bersangiz, u sizga katta ehtimol bilan G‘arb korporativ madaniyatini o‘zbekcha so‘zlar bilan taqdim etadi. Muammo shundaki, til faqat so‘zlar yig‘indisi emas, u — kod. Unda millatning tarixi, dunyoqarashi va mantiqiy fikrlash tarzi yashiringan. Agar biz o‘zbek tilidagi sifatli, akademik va badiiy ma’lumotlarni raqamli formatga o‘tkazib, AI modellariga «to’yintirmasak», kelajak avlod AI orqali o‘zga madaniyat qoliplarini qabul qila boshlaydi.
Tahlil: AI hozirgi holatda o‘zbek foydalanuvchisi uchun «tarjimon» rolini o‘ynayapti xolos. Bizning maqsadimiz — uni o‘zbek tilida «fikrlashga» o‘rgatish bo‘lishi kerak.
Texnologik to‘siq: Agglyutinativ til muammosi
O‘zbek tili — agglyutinativ (qo‘shimchalar orqali so‘z yasaladigan) til hisoblanadi. Ingliz yoki rus tillaridan farqli o‘laroq, bitta o‘zbekcha so‘z o‘zagiga 5-6 ta qo‘shimcha qo‘shilib, butun bir gapning ma’nosini berishi mumkin (masalan: «kelolmaydiganlardanmisiz»).
Ko‘pgina global modellar so‘zlarni bo‘g‘inlarga (tokenlarga) ajratishda qiynaladi. Bu esa o‘zbek tilidagi so‘rovlarni qayta ishlashni qimmatlashtiradi va sifatini tushiradi.
Yechim: Milliy korpus va ochiq kodlar
Xo‘sh, nima qilish kerak? Chetdan keladigan mo‘jizani kutish xato. Yechim — O‘zbek tilining milliy raqamli korpusini yaratish va rivojlantirishdir.
- Raqamlashtirish: Kutubxonalardagi minglab kitoblar, gazeta arxivlari va ilmiy maqolalar mashina o‘qiy oladigan formatga (machine-readable) o‘tkazilishi shart.
- Ovozli ma’lumotlar: O‘zbek tilining turli shevalarini tushunadigan «Speech-to-Text» texnologiyalari uchun minglab soatlik audio yozuvlar kerak.
- Hamkorlik: Bu ishni faqat davlat yoki faqat xususiy sektor eplay olmaydi. IT-kompaniyalar, tilshunoslar va hukumat birgalikda «Open Source» (ochiq kodli) loyihalar ustida ishlashi zarur.
Til — iqtisodiy qurol
Kelajakda davlatlarning kuchi ularning hududi yoki qazilma boyliklari bilan emas, balki ularning raqamli olamdagi o‘rni bilan o‘lchanadi. Agar o‘zbek tili AI tillari oilasida o‘z o‘rnini topa olmasa, biz texnologik iste’molchi bo‘lib qolaveramiz. O‘zbek tili raqamli asrda yashab qolishi uchun u shunchaki «chiroyli adabiyot tili» bo‘lib qolishi yetarli emas. U «ma’lumotlar tili»ga (Data Language) aylanishi kerak. Bu jarayonni bugun boshlash — kech emas, ammo ertaga kech bo‘lishi aniq.
Agar siz IT sohasida bo‘lsangiz, o‘zbek tilidagi ochiq datasetlarga (masalan, Mozilla Common Voice yoki Wikipedia) hissa qo‘shing. Bu — kelajakka tikilgan eng katta sarmoyadir.
















