Milliy korpusning ruhiyati

yoki til faqat muloqot vositasimi?

Bugungi kunda til shunchaki muloqot quroli bo'lishdan to'xtab, sun'iy intellekt va raqamli texnologiyalar olamidagi murakkab tizimning asosiy “xomashyo”siga aylanmoqda. Har bir so'z, ibora va jumla virtual muhitda qayta ishlanib, algoritmlar o'zlashtiradigan axborot shakliga kiryapti. Mazkur jarayonda milliy korpus — tilning elektron bazasi eng muhim poydevor sifatida namoyon bo'lmoqda. Zero, aynan shu manba orqali sun'iy intellekt nutqimizni anglaydi, tahlil qiladi va undan foydalanishni o'rganadi. Biroq o'rinli bir savol tug'iladi: ushbu zaxira qanday matnlar hisobiga shakllanyapti? U faqat rasmiy hujjatlar, quruq ilmiy hisobotlardan iboratmi yoki tilning “jon”ini, ohangi va estetik jozibasini saqlovchi badiiy asarlar bilan ham boyitilmoqdami?

Agar korpus biryoqlama manbalar asosiga qurilsa, intellektual tizimlar tilning faqat yuzaki, texnik qatlamini o'zlashtiradi. Natijada xalqimizning ruhiyati, so'zlarimizdagi nozik ma'no qatlamlari va adabiy merosimiz raqamli evolyutsiyadan chetda qolib ketishi mumkin. Afsuski, bugun o'zbek tilini og'ir ahvoldagi bemordek qarovsiz qoldirdik. Til yashab qolishi uchun faqat kundalik muloqotda qo'llanishi yetarli emas. U kompyuterlarning nutqi, smartfonlarning “aqli” va global tarmoqning ovoziga aylanishi shart.

Hozirgi zamon tillari ikki yo'l chorrahasida turibdi: birinchisi — dunyoni boshqaradigan, har qanday murakkab savolga javob topa oladigan “intellektual” tillar; ikkinchisi — taraqqiyot karvonidan uzilib qolgan, faqat tor maishiy doirada ishlatiladigan tillar. Xo'sh, bu ma'naviy uzilishga qanday chora topish mumkin? Najot — balandparvoz hayqiriqlarda emas, balki tilimizning internet olamidagi poydevori bo'lgan mukammal raqamli bazani yaratishdadir. Bu shunchaki kitoblar jamlanmasi emas, balki ona tilimizning yangi asrda yashab qolishi uchun yagona chiptasidir. Navoiy merosidan tortib zamonaviy adabiyotimiz durdonalarigacha bo'lgan barcha boyliklarni kompyuterlar “hazm qiladigan” formatga o'tkazmas ekanmiz, kelajak texnologiyalari bizni tan olmaydi. Bunday poydevorsiz aqlli mashinalar o'zbekcha fikrlashni hech qachon o'rganmaydi va bizga hamisha o'zga tillar qolipi asosida javob beraveradi.

Shu bois bu hayotiy zaruratni anglash va tilimizni raqamli olamning to'laqonli a'zosiga aylantirish bugun shunchaki ilmiy istak emas, balki davlat darajasidagi strategik vazifaga aylandi. Xususan, o'zbek tilining milliy korpusini rivojlantirish bo'yicha so'nggi yillarda bir qator muhim islohotlar amalga oshirildi. 2019 yilda “ O'zbek tilining davlat tili sifatidagi nufuzi va mavqeini tubdan oshirish chora-tadbirlari to'g'risida”gi Prezident farmoni qabul qilindi. Shuningdek, bu hujjat asosida Davlat tilini rivojlantirish departamenti tashkil etildi. Ushbu departamentga davlat idoralarining o'zbek tilida ish yuritishini nazorat qilish vazifasi yuklatildi. 2020 yilda terminologiya tizimiga jiddiy e'tibor qaratilib, “O'zbek tilining izohli lug'ati” va yangi ilmiy-texnik terminologiya bo'yicha qo'llanmalar yaratildi. Shuningdek, turli fan sohalari bo'yicha o'zbekcha terminologiyalarni rivojlantirishga e'tibor kuchaydi.

2020 yil 20 oktyabrda O'zbekiston Respublikasi Prezidentining “Mamlakatimizda o'zbek tilini yanada rivojlantirish va til siyosatini takomillashtirish chora-tadbirlari to'g'risida”gi farmoni qabul qilindi. Ushbu farmon bilan 2020-2030 yillarda o'zbek tilini rivojlantirish va til siyosatini takomillashtirish konsepsiyasi tasdiqlandi. Mazkur konsepsiyada davlat tilining zamonaviy axborot texnologiyalari va kommunikatsiyalariga faol integratsiyalashuvini ta'minlash ustuvor yo'nalishlardan biri sifatida belgilangan. Shu jumladan, o'zbek tiliga oid barcha ilmiy, nazariy va amaliy ma'lumotlarni o'zida jamlagan elektron ko'rinishdagi o'zbek tili milliy korpusini yaratish vazifasi qo'yilgan. Bu borada ilmiy tadqiqotlar ham olib borilmoqda. Masalan, “O'zbek tilining milliy korpusini loyihalash va dasturiy majmua ishlab chiqish” mavzusida bir guruh ilmiy va texnik xodimlar tomonidan amaliy ishlar boshlandi. Ular xorijiy milliy korpuslarni tahlil qilish asosida o'zbek tili milliy korpusi modelini yaratish, matnlarni avtomatik qayta ishlash, tokenlash, lemmalash va grammatik razmetkalash modellari va algoritmlarini ishlab chiqish kabi vazifalarni amalga oshirmoqda. Shuningdek, internet orqali o'zbek tili milliy korpusidan foydalanish uchun “uzbekcorpora.uz” veb-sayti ishga tushirildi. Ammo sohada yutuqlar bilan birga hali zamon taqozosiga ko'ra amalga oshirilishi kerak bo'lgan ishlar ko'p.

Qog'ozdagi raqamlar va ishga tushirilgan saytlar bizni xotirjam qilmasligi kerak. Milliy korpus — bu shunchaki bir marta qurib bitkaziladigan bino emas, u muntazam oziqlantirib turilishi kerak bo'lgan tirik raqamli organizmdir. Bugun oldimizda turgan eng katta muammo — sifatli ma'lumotlarning yetishmasligidir. Gap shundaki, dunyo tillari internet kengliklarida o'z hududini kengaytirib borayotgan bir paytda, o'zbek tilidagi raqamli kontent hali ham o'ta qashshoq bo'lib qolmoqda. Sun'iy intellekt “fikrlashi” uchun unga millionlab sifatli matnlar kerak. Agar biz korpusni faqat rasmiy hujjatlar yoki quruq hisobotlar bilan to'ldirsak, ertaga biz muloqot qiladigan neyrotarmoqlar ham faqat “rasmiyatchilik” tilida so'ylaydigan bo'lib qoladi. Shu o'rinda savol paydo bo'ladi: o'zbek tilining raqamli korpusi hanuz yetarli darajada shakllanmaganining sabablari nimada?

“O'zbek tilining raqamli korpusi hanuz yetarli darajada shakllanmaganining sabablari ko'p omilli va tabiiy rivojlanish jarayoni bilan bog'liq. Avvalo, mavjud matn resurslari turli tashkilotlar va ilmiy-amaliy loyihalar doirasida shakllangan bo'lib, ularni yagona standart va metodologiya asosida birlashtirish masalasi hali to'liq hal etilmagan. Bu esa korpuslarning qamrovi va samarali qayta foydalanish imkoniyatlarini cheklab turibdi. Ikkinchidan, lingvistik resurslarni yaratish — ayniqsa, morfologik va sintaktik annotatsiya — tizimli yondashuv va muayyan ilmiy tajribani talab qiladigan bosqichma-bosqich jarayondir. Uchinchidan, o'zbek tilining o'ziga xos jihatlari, jumladan, turli yozuv tizimlarining (kirill va lotin) parallel qo'llanilishi hamda til birliklarining xilma-xilligi raqamlashtirish jarayonida qo'shimcha yondashuvlarni talab etadi.

Hozirgi kunda o'zbek tili raqamlashtirish bosqichida o'tish davrini boshdan kechirmoqda va so'nggi yillarda bu yo'nalishda sezilarli faollashuv kuzatilmoqda. Sun'iy intellekt va tabiiy tilni qayta ishlash (“NLP”) texnologiyalarining rivojlanishi bu jarayonni sezilarli tezlashtirmoqda: avtomatik annotatsiya, nutqni tanish va matn generatsiyasi kabi yo'nalishlarda dastlabki muvaffaqiyatlar mavjud. Shunga qaramay, kelgusi bosqichda asosiy e'tibor yirik hajmdagi, standartlashtirilgan va ochiq raqamli korpuslarni yaratish, ularni ilmiy hamjamiyat uchun ochiq qilish hamda sanoat bilan integratsiyalashuvni kuchaytirishga qaratilishi lozim”, — deydi texnika fanlari bo'yicha falsafa doktori (PhD) Sayyora Ibragimova.

Darhaqiqat, mutaxassis ta'kidlaganidek, o'zbek tilining raqamli istiqboli faqat texnik imkoniyatlarga emas, balki manbalarning sifati va yaxlitligiga ham bog'liq. Ammo bu o'rinda bir nozik jihatni unutmaslik lozim, ya'ni milliy korpusni shunchaki ma'lumotlar ombori sifatida emas, balki tilning “yashash muhiti” sifatida ko'rish zarur. Agar korpus faqat standartlashtirish va annotatsiya jarayonlari bilan cheklanib qolsa, uning estetik va badiiy qatlamni aks ettirish salohiyati zaiflashib boradi.

Bu masalaning jiddiyligini xalqaro tajribalar ham tasdiqlaydi. Masalan, ingliz tilidagi “British National Corpus” (“BNC”) va zamonaviy “Corpus of Contemporary American English” (“COCA”) nafaqat rasmiy va ilmiy matnlarni, balki badiiy adabiyot, ommaviy axborot vositalari va jonli nutq namunalarini ham o'z ichiga oladi. Aynan shu xilma-xillik ingliz tilining sun'iy intellekt tizimlarida tabiiy va “tirik” ko'rinishda ishlashiga zamin yaratgan. Xuddi shunday, nemis tilidagi “DeReKo” (“Deutsches Referenzkorpus”) ham keng janrli matnlarni qamrab olgani bilan ajralib turadi. Unda nafaqat rasmiy hujjatlar, balki gazeta materiallari va badiiy asarlar ham mavjud bo'lib, bu tilning uslubiy boyligini raqamli tizimda saqlab qolishga xizmat qiladi. Yapon tilidagi “Balanced Corpus of Contemporary Written Japanese” (“BCCWJ”) esa ilmiy, publitsistik va badiiy matnlarni muvozanatli tarzda birlashtirgan holda, tilning turli registrlarini sun'iy intellekt uchun “o'rgatish materiali” sifatida taqdim etadi. Bu tajribalar shuni ko'rsatadiki, milliy korpusning muvaffaqiyati faqat texnik tuzilma yoki hajm bilan emas, balki uning ichki muvozanati — ya'ni rasmiy, ilmiy va badiiy qatlamlarning uyg'unligi bilan belgilanadi. Aks holda, korpus texnik jihatdan mukammal bo'lsa ham, tilning jonli ruhini to'liq aks ettira olmaydi.

“Bugungi raqamli davrda til faqat muloqot vositasi emas, balki millatning raqamli mavjudligini belgilaydigan asosiy omildir. Biz ko'pincha o'zbekcha ma'lumot izlaymiz, ammo yetarli resurs bo'lmagani uchun boshqa tillarga o'tishga majbur bo'lamiz. Bu esa asta-sekin o'zbek tilining raqamli makondagi o'rnini zaiflashtiradi. Agar o'zbekcha “Vikipediya”, ilmiy maqolalar va eng muhimi, milliy til korpusi boyitilmasa, tilimiz raqamli dunyoda cheklangan imkoniyatga ega tizim bo'lib qoladi. Til korpusini rivojlantirish esa faqat mutaxassislar emas, balki jamiyatning umumiy mas'uliyatidir. Bu jarayonda badiiy asarlar alohida ahamiyatga ega, chunki ular tilning eng boy va jonli qatlamini tashkil etadi. She'r, roman va hikoyalar tilning obrazli tafakkuri, metafora va xalqona ifodalarini saqlaydi. Agar ular korpusga kiritilmasa, tilning badiiy imkoniyatlari yo'qolib boradi va u faqat rasmiy matnlar darajasida qolib ketadi. Natijada o'zbek tili raqamli muhitda to'liq ifoda bera olmaydigan, “yarim til” holatiga tushishi mumkin. Shu sababli tilni raqamli dunyoga to'liq olib kirish, uni ilmiy va badiiy matnlar bilan boyitish — bu milliy madaniyat va raqamli kelajak masalasidir. Chunki o'z so'ziga ega bo'lgan millatgina o'z fikri va kelajagini mustaqil qurishga qodir bo'ladi”, — deydi O'zbekiston davlat jahon tillari universiteti xalqaro jurnalistika fakulteti talabasi Xumora Ziyodullayeva.

Xumora Ziyodullayevaning mulohazalari bizni bir muhim haqiqatga ro'para qiladi, xususan, bugun tilimizning raqamli dunyodagi taqdiri algoritmlarga emas, balki bizning irodamiz va mas'uliyatimizga bog'liq. Milliy korpus — bu shunchaki jonsiz ma'lumotlar bazasi emas, balki millatning raqamli olamdagi intellektual va ma'naviy qiyofasidir. Agar bu ulkan tizimning poydevorini faqat quruq hisobotlar va texnik matnlar bilan qursak, biz kelajak avlodga “sovuq” va hissiz bir meros qoldiramiz.

Maqola boshida qo'yilgan savolga qaytsak, ya'ni milliy korpusning ruhiyatini badiiy asarlar shakllantiradimi? Shubhasiz, ha! Badiiy adabiyot korpus uchun shunchaki matn manbasi emas, balki uning “yurak urishi” va “nafas olishidir”. Navoiyning nafosati, Qodiriyning tili va zamonaviy adabiyotimizning falsafiy teranligi algoritmlarga nafaqat gapirishni, balki o'zbekona “his qilish”ni va “andisha bilan fikrlash”ni o'rgatadi. Biz tilni “keraksiz” tushunchalar qatoridan chiqarib, uni global texnologiyalar aqli va internetning ovoziga aylantirishimiz shart. Zero, raqamli makonda o'zining badiiy jozibasi va intellektual salohiyatiga ega bo'lmagan millat o'zgalar tomonidan chizilgan mantiqiy qoliplar ichida g'oyib bo'lishga mahkum bo'ladi.

Nazim BO'RONOV,

tadqiqotchi jurnalist.

Yangiliklarni do'stlaringizga ulashing

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan

twenty + one =