Тўсиқсиз мулоқот сари

Сўнгги йилларда сунъий интеллект (СИ) ҳақидаги шов-шувли муҳокамаларнинг ўрнини аниқ ижтимоий лойиҳалар эгалламоқда. Чунки СИ энди назарий модель эмас, балки инсон имкониятларини тўлдирувчи ва жамиятдаги тўсиқларни бартараф этувчи кучли восита сифатида қаралмоқда. Хусусан, эшитиш ва гапириш қобилиятида нуқсони бўлган шахслар учун мулоқотни осонлаштириш бугунги технологик ривожланишнинг марказида турибди.

“Имо-ишора тили” дунёдаги энг визуал ва динамик тиллардан бири бўлиб, ҳар бир қўл ҳаракати ёки бармоқ эгилиши орқали мураккаб тушунчаларни ифодалайди. Аммо бу тилни билмайдиганлар учун у тўлиқ ёпиқ оламдек кўринади. Энди эса замонавий СИ алгоритмлари ёрдамида бу “жимжитлик дунёси”ни рақамли тилга ўтказиш мумкин бўлиб қолди. Бу жараён ҳали тўлиқ овозли мулоқот даражасига етмаган бўлса-да, қўл ҳаракатларини алоҳида сўзларга айлантиришни таъминлайдиган дастлабки натижаларга аллақачон эришилган.

Тадқиқотларимиз марказида компьютерда кўриш орқали имо-ишорани матнга ўгириш масаласи турибди, бунда “YOLO” (“You Only Look Once”) модели асосий роль ўйнайди. Чунки у бошқа моделлардан фарқли ўлароқ, видеокадрлардаги объектларни (қўлларни) бир вақтнинг ўзида аниқлаб, локализация қилишда юқори тезликда реал вақт режимида кечикишсиз таҳлилни таъминлайди. Аммо нозик ҳаракат деталларини ўқиш учун “MediaPipe” кутубхонаси интеграция қилинади.

Бу тажрибаларнинг муҳим жиҳати — ҳар бир тушунилган сўз ортида инсон тақдири ва қадр-қиммати ётибди. “Ўзбекистон – 2030” стратегиясида белгиланганидек, рақамли технологиялар инсонни юксалтиришга хизмат қилиши керак; ҳозирги тизим ҳали гапирмаётган бўлса-да, у имо-ишорани тушуниб, матн шаклида чиқаради. Бу эса эшитишда нуқсони бўлганлар учун ўз фикрларини бошқаларга етказиш имконини беради ва яқин келажакда ҳар бир хизмат маскани ёки мобиль қурилмада стандарт воситага айланади. Ҳозирги натижалар “визуал луғат” босқичида бўлиб, кундалик ҳаётдаги “салом”, “раҳмат”, “ҳа // йўқ”, “ёрдам беринг” каби таянч сўзларни таний олишга йўналтирилган. Имо-ишора тилини матнга ёки нутққа ўгириш (“Sign-to-Text/Speech”) жараёни замонавий сунъий интеллект ва компьютерда кўриш соҳаларининг энг мураккаб ва ижтимоий аҳамиятга эга йўналишларидан бири ҳисобланади. У камерадан олинган видеотасвирларни реал вақт режимида семантик маънога эга бўлган тил бирликларига айлантиришни кўзда тутади.

Бу ёндашувнинг техник асоси инсон ҳаракатларини таҳлил қилишга таянади ва визуал маълумотларни йиғиш жараёнида оддий “RGB” камералардан фойдаланиш тизимнинг оммабоплигини таъминлайди. Ёритиш даражаси, фон шовқинлари ва кийим рангининг тасвир билан уйғунлашиб кетиши каби муаммолар алгоритмларнинг аниқлигига сезиларли таъсир кўрсатади. Дастлабки ишлов бериш босқичида тасвирдаги фойдаланувчи танасининг ҳолати нормализация қилинади ва “MediaPipe” кутубхонаси ёрдамида ҳар бир қўл учун 21 та асосий таянч нуқтаси (ландмаркс) аниқланиб, уларнинг “x”, “y”, “z” координаталари орқали скелет модели яратилади. Бу тизимга бутун бошли видеони эмас, балки фақатгина рақамли координаталар кетма-кетлигини таҳлил қилиш имконини беради.

Шу билан бирга, имо-ишораларни таснифлашда статик (“fingerspelling”) ва динамик (сўз ва гаплар) ҳаракатлар фарқланади. Бунда статик ишораларни аниқлашда “Convolutional Neural Networks” (CNN) модели 98 фоизгача аниқликни кўрсатса, вақт давомида ўзгариб турувчи динамик ҳаракатларни қайта ишлаш учун “Long Short-Term Memory” (LSTM) ва “Gated Recurrent Units” (GRU) каби рекуррент нейрон тармоқлари қўлланилади. Чунки бу моделлар ҳар бир кадрни олдинги кадрлар билан мантиқий боғлаш хусусиятига эга. Тадқиқот натижалари шуни кўрсатадики, фақатгина қўл ҳаракатларига таяниш ҳар доим ҳам кутилган натижани бермайди. Бинобарин, имо-ишора тилининг тўлақонли маъноси юз мимикаси (“eyebrow movement”), лаб ҳаракати ва тана ҳолати (“pose estimation”) каби нон-мануал хусусиятлар (“NMFs”) орқали шаклланади. Бу тизимдан мультимодал ёндашувни, яъни бир вақтнинг ўзида бир неча нейрон тармоқларини интеграция қилишни талаб қилади.

“LSTM” тармоқлари ёрдамида сўзларни гапларга бирлаштириш ва грамматик қурилмани ўрганишга ўтишни таъминлайди, натижада имо-ишора тилининг “алифбо”си ва дастлабки сўзларини компьютерга ўргатиш орқали эшитиш нуқсонига эга шахслар учун тўлақонли рақамли кўприк яратилади, бу эса жамиятдаги инклюзивликни янада кучайтиради.

Илёсбек ВАЛИХОНОВ,

Фарғона давлат техника

университети талабаси.

Янгиликларни дўстларингизга улашинг

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan

five × one =