Миллий корпуснинг руҳияти

ёки тил фақат мулоқот воситасими?

Бугунги кунда тил шунчаки мулоқот қуроли бўлишдан тўхтаб, сунъий интеллект ва рақамли технологиялар оламидаги мураккаб тизимнинг асосий “хомашё”сига айланмоқда. Ҳар бир сўз, ибора ва жумла виртуал муҳитда қайта ишланиб, алгоритмлар ўзлаштирадиган ахборот шаклига киряпти. Мазкур жараёнда миллий корпус — тилнинг электрон базаси энг муҳим пойдевор сифатида намоён бўлмоқда. Зеро, айнан шу манба орқали сунъий интеллект нутқимизни англайди, таҳлил қилади ва ундан фойдаланишни ўрганади. Бироқ ўринли бир савол туғилади: ушбу захира қандай матнлар ҳисобига шаклланяпти? У фақат расмий ҳужжатлар, қуруқ илмий ҳисоботлардан иборатми ёки тилнинг “жон”ини, оҳанги ва эстетик жозибасини сақловчи бадиий асарлар билан ҳам бойитилмоқдами?

Агар корпус бирёқлама манбалар асосига қурилса, интеллектуал тизимлар тилнинг фақат юзаки, техник қатламини ўзлаштиради. Натижада халқимизнинг руҳияти, сўзларимиздаги нозик маъно қатламлари ва адабий меросимиз рақамли эволюциядан четда қолиб кетиши мумкин. Афсуски, бугун ўзбек тилини оғир аҳволдаги бемордек қаровсиз қолдирдик. Тил яшаб қолиши учун фақат кундалик мулоқотда қўлланиши етарли эмас. У компьютерларнинг нутқи, смартфонларнинг “ақли” ва глобал тармоқнинг овозига айланиши шарт.

Ҳозирги замон тиллари икки йўл чорраҳасида турибди: биринчиси — дунёни бошқарадиган, ҳар қандай мураккаб саволга жавоб топа оладиган “интеллектуал” тиллар; иккинчиси — тараққиёт карвонидан узилиб қолган, фақат тор маиший доирада ишлатиладиган тиллар. Хўш, бу маънавий узилишга қандай чора топиш мумкин? Нажот — баландпарвоз ҳайқириқларда эмас, балки тилимизнинг интернет оламидаги пойдевори бўлган мукаммал рақамли базани яратишдадир. Бу шунчаки китоблар жамланмаси эмас, балки она тилимизнинг янги асрда яшаб қолиши учун ягона чиптасидир. Навоий меросидан тортиб замонавий адабиётимиз дурдоналаригача бўлган барча бойликларни компьютерлар “ҳазм қиладиган” форматга ўтказмас эканмиз, келажак технологиялари бизни тан олмайди. Бундай пойдеворсиз ақлли машиналар ўзбекча фикрлашни ҳеч қачон ўрганмайди ва бизга ҳамиша ўзга тиллар қолипи асосида жавоб бераверади.

Шу боис бу ҳаётий заруратни англаш ва тилимизни рақамли оламнинг тўлақонли аъзосига айлантириш бугун шунчаки илмий истак эмас, балки давлат даражасидаги стратегик вазифага айланди. Хусусан, ўзбек тилининг миллий корпусини ривожлантириш бўйича сўнгги йилларда бир қатор муҳим ислоҳотлар амалга оширилди. 2019 йилда “ Ўзбек тилининг давлат тили сифатидаги нуфузи ва мавқеини тубдан ошириш чора-тадбирлари тўғрисида”ги Президент фармони қабул қилинди. Шунингдек, бу ҳужжат асосида Давлат тилини ривожлантириш департаменти ташкил этилди. Ушбу департаментга давлат идораларининг ўзбек тилида иш юритишини назорат қилиш вазифаси юклатилди. 2020 йилда терминология тизимига жиддий эътибор қаратилиб, “Ўзбек тилининг изоҳли луғати” ва янги илмий-техник терминология бўйича қўлланмалар яратилди. Шунингдек, турли фан соҳалари бўйича ўзбекча терминологияларни ривожлантиришга эътибор кучайди.

2020 йил 20 октябрда Ўзбекистон Республикаси Президентининг “Мамлакатимизда ўзбек тилини янада ривожлантириш ва тил сиёсатини такомиллаштириш чора-тадбирлари тўғрисида”ги фармони қабул қилинди. Ушбу фармон билан 2020-2030 йилларда ўзбек тилини ривожлантириш ва тил сиёсатини такомиллаштириш концепцияси тасдиқланди. Мазкур концепцияда давлат тилининг замонавий ахборот технологиялари ва коммуникацияларига фаол интеграциялашувини таъминлаш устувор йўналишлардан бири сифатида белгиланган. Шу жумладан, ўзбек тилига оид барча илмий, назарий ва амалий маълумотларни ўзида жамлаган электрон кўринишдаги ўзбек тили миллий корпусини яратиш вазифаси қўйилган. Бу борада илмий тадқиқотлар ҳам олиб борилмоқда. Масалан, “Ўзбек тилининг миллий корпусини лойиҳалаш ва дастурий мажмуа ишлаб чиқиш” мавзусида бир гуруҳ илмий ва техник ходимлар томонидан амалий ишлар бошланди. Улар хорижий миллий корпусларни таҳлил қилиш асосида ўзбек тили миллий корпуси моделини яратиш, матнларни автоматик қайта ишлаш, токенлаш, леммалаш ва грамматик разметкалаш моделлари ва алгоритмларини ишлаб чиқиш каби вазифаларни амалга оширмоқда. Шунингдек, интернет орқали ўзбек тили миллий корпусидан фойдаланиш учун “uzbekcorpora.uz” веб-сайти ишга туширилди. Аммо соҳада ютуқлар билан бирга ҳали замон тақозосига кўра амалга оширилиши керак бўлган ишлар кўп.

Қоғоздаги рақамлар ва ишга туширилган сайтлар бизни хотиржам қилмаслиги керак. Миллий корпус — бу шунчаки бир марта қуриб битказиладиган бино эмас, у мунтазам озиқлантириб турилиши керак бўлган тирик рақамли организмдир. Бугун олдимизда турган энг катта муаммо — сифатли маълумотларнинг етишмаслигидир. Гап шундаки, дунё тиллари интернет кенгликларида ўз ҳудудини кенгайтириб бораётган бир пайтда, ўзбек тилидаги рақамли контент ҳали ҳам ўта қашшоқ бўлиб қолмоқда. Сунъий интеллект “фикрлаши” учун унга миллионлаб сифатли матнлар керак. Агар биз корпусни фақат расмий ҳужжатлар ёки қуруқ ҳисоботлар билан тўлдирсак, эртага биз мулоқот қиладиган нейротармоқлар ҳам фақат “расмиятчилик” тилида сўйлайдиган бўлиб қолади. Шу ўринда савол пайдо бўлади: ўзбек тилининг рақамли корпуси ҳануз етарли даражада шаклланмаганининг сабаблари нимада?

“Ўзбек тилининг рақамли корпуси ҳануз етарли даражада шаклланмаганининг сабаблари кўп омилли ва табиий ривожланиш жараёни билан боғлиқ. Аввало, мавжуд матн ресурслари турли ташкилотлар ва илмий-амалий лойиҳалар доирасида шаклланган бўлиб, уларни ягона стандарт ва методология асосида бирлаштириш масаласи ҳали тўлиқ ҳал этилмаган. Бу эса корпусларнинг қамрови ва самарали қайта фойдаланиш имкониятларини чеклаб турибди. Иккинчидан, лингвистик ресурсларни яратиш — айниқса, морфологик ва синтактик аннотация — тизимли ёндашув ва муайян илмий тажрибани талаб қиладиган босқичма-босқич жараёндир. Учинчидан, ўзбек тилининг ўзига хос жиҳатлари, жумладан, турли ёзув тизимларининг (кирилл ва лотин) параллел қўлланилиши ҳамда тил бирликларининг хилма-хиллиги рақамлаштириш жараёнида қўшимча ёндашувларни талаб этади.

Ҳозирги кунда ўзбек тили рақамлаштириш босқичида ўтиш даврини бошдан кечирмоқда ва сўнгги йилларда бу йўналишда сезиларли фаоллашув кузатилмоқда. Сунъий интеллект ва табиий тилни қайта ишлаш (“NLP”) технологияларининг ривожланиши бу жараённи сезиларли тезлаштирмоқда: автоматик аннотация, нутқни таниш ва матн генерацияси каби йўналишларда дастлабки муваффақиятлар мавжуд. Шунга қарамай, келгуси босқичда асосий эътибор йирик ҳажмдаги, стандартлаштирилган ва очиқ рақамли корпусларни яратиш, уларни илмий ҳамжамият учун очиқ қилиш ҳамда саноат билан интеграциялашувни кучайтиришга қаратилиши лозим”, — дейди техника фанлари бўйича фалсафа доктори (PhD) Сайёра Ибрагимова.

Дарҳақиқат, мутахассис таъкидлаганидек, ўзбек тилининг рақамли истиқболи фақат техник имкониятларга эмас, балки манбаларнинг сифати ва яхлитлигига ҳам боғлиқ. Аммо бу ўринда бир нозик жиҳатни унутмаслик лозим, яъни миллий корпусни шунчаки маълумотлар омбори сифатида эмас, балки тилнинг “яшаш муҳити” сифатида кўриш зарур. Агар корпус фақат стандартлаштириш ва аннотация жараёнлари билан чекланиб қолса, унинг эстетик ва бадиий қатламни акс эттириш салоҳияти заифлашиб боради.

Бу масаланинг жиддийлигини халқаро тажрибалар ҳам тасдиқлайди. Масалан, инглиз тилидаги “British National Corpus” (“BNC”) ва замонавий “Corpus of Contemporary American English” (“COCA”) нафақат расмий ва илмий матнларни, балки бадиий адабиёт, оммавий ахборот воситалари ва жонли нутқ намуналарини ҳам ўз ичига олади. Айнан шу хилма-хиллик инглиз тилининг сунъий интеллект тизимларида табиий ва “тирик” кўринишда ишлашига замин яратган. Худди шундай, немис тилидаги “DeReKo” (“Deutsches Referenzkorpus”) ҳам кенг жанрли матнларни қамраб олгани билан ажралиб туради. Унда нафақат расмий ҳужжатлар, балки газета материаллари ва бадиий асарлар ҳам мавжуд бўлиб, бу тилнинг услубий бойлигини рақамли тизимда сақлаб қолишга хизмат қилади. Япон тилидаги “Balanced Corpus of Contemporary Written Japanese” (“BCCWJ”) эса илмий, публицистик ва бадиий матнларни мувозанатли тарзда бирлаштирган ҳолда, тилнинг турли регистрларини сунъий интеллект учун “ўргатиш материали” сифатида тақдим этади. Бу тажрибалар шуни кўрсатадики, миллий корпуснинг муваффақияти фақат техник тузилма ёки ҳажм билан эмас, балки унинг ички мувозанати — яъни расмий, илмий ва бадиий қатламларнинг уйғунлиги билан белгиланади. Акс ҳолда, корпус техник жиҳатдан мукаммал бўлса ҳам, тилнинг жонли руҳини тўлиқ акс эттира олмайди.

“Бугунги рақамли даврда тил фақат мулоқот воситаси эмас, балки миллатнинг рақамли мавжудлигини белгилайдиган асосий омилдир. Биз кўпинча ўзбекча маълумот излаймиз, аммо етарли ресурс бўлмагани учун бошқа тилларга ўтишга мажбур бўламиз. Бу эса аста-секин ўзбек тилининг рақамли макондаги ўрнини заифлаштиради. Агар ўзбекча “Википедия”, илмий мақолалар ва энг муҳими, миллий тил корпуси бойитилмаса, тилимиз рақамли дунёда чекланган имкониятга эга тизим бўлиб қолади. Тил корпусини ривожлантириш эса фақат мутахассислар эмас, балки жамиятнинг умумий масъулиятидир. Бу жараёнда бадиий асарлар алоҳида аҳамиятга эга, чунки улар тилнинг энг бой ва жонли қатламини ташкил этади. Шеър, роман ва ҳикоялар тилнинг образли тафаккури, метафора ва халқона ифодаларини сақлайди. Агар улар корпусга киритилмаса, тилнинг бадиий имкониятлари йўқолиб боради ва у фақат расмий матнлар даражасида қолиб кетади. Натижада ўзбек тили рақамли муҳитда тўлиқ ифода бера олмайдиган, “ярим тил” ҳолатига тушиши мумкин. Шу сабабли тилни рақамли дунёга тўлиқ олиб кириш, уни илмий ва бадиий матнлар билан бойитиш — бу миллий маданият ва рақамли келажак масаласидир. Чунки ўз сўзига эга бўлган миллатгина ўз фикри ва келажагини мустақил қуришга қодир бўлади”, — дейди Ўзбекистон давлат жаҳон тиллари университети халқаро журналистика факультети талабаси Хумора Зиёдуллаева.

Хумора Зиёдуллаеванинг мулоҳазалари бизни бир муҳим ҳақиқатга рўпара қилади, хусусан, бугун тилимизнинг рақамли дунёдаги тақдири алгоритмларга эмас, балки бизнинг иродамиз ва масъулиятимизга боғлиқ. Миллий корпус — бу шунчаки жонсиз маълумотлар базаси эмас, балки миллатнинг рақамли оламдаги интеллектуал ва маънавий қиёфасидир. Агар бу улкан тизимнинг пойдеворини фақат қуруқ ҳисоботлар ва техник матнлар билан қурсак, биз келажак авлодга “совуқ” ва ҳиссиз бир мерос қолдирамиз.

Мақола бошида қўйилган саволга қайтсак, яъни миллий корпуснинг руҳиятини бадиий асарлар шакллантирадими? Шубҳасиз, ҳа! Бадиий адабиёт корпус учун шунчаки матн манбаси эмас, балки унинг “юрак уриши” ва “нафас олишидир”. Навоийнинг нафосати, Қодирийнинг тили ва замонавий адабиётимизнинг фалсафий теранлиги алгоритмларга нафақат гапиришни, балки ўзбекона “ҳис қилиш”ни ва “андиша билан фикрлаш”ни ўргатади. Биз тилни “кераксиз” тушунчалар қаторидан чиқариб, уни глобал технологиялар ақли ва интернетнинг овозига айлантиришимиз шарт. Зеро, рақамли маконда ўзининг бадиий жозибаси ва интеллектуал салоҳиятига эга бўлмаган миллат ўзгалар томонидан чизилган мантиқий қолиплар ичида ғойиб бўлишга маҳкум бўлади.

Назим БЎРОНОВ,

тадқиқотчи журналист.

Янгиликларни дўстларингизга улашинг

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan

twelve − seven =