To'siqsiz muloqot sari

So'nggi yillarda sun'iy intellekt (SI) haqidagi shov-shuvli muhokamalarning o'rnini aniq ijtimoiy loyihalar egallamoqda. Chunki SI endi nazariy model emas, balki inson imkoniyatlarini to'ldiruvchi va jamiyatdagi to'siqlarni bartaraf etuvchi kuchli vosita sifatida qaralmoqda. Xususan, eshitish va gapirish qobiliyatida nuqsoni bo'lgan shaxslar uchun muloqotni osonlashtirish bugungi texnologik rivojlanishning markazida turibdi.

“Imo-ishora tili” dunyodagi eng vizual va dinamik tillardan biri bo'lib, har bir qo'l harakati yoki barmoq egilishi orqali murakkab tushunchalarni ifodalaydi. Ammo bu tilni bilmaydiganlar uchun u to'liq yopiq olamdek ko'rinadi. Endi esa zamonaviy SI algoritmlari yordamida bu “jimjitlik dunyosi”ni raqamli tilga o'tkazish mumkin bo'lib qoldi. Bu jarayon hali to'liq ovozli muloqot darajasiga yetmagan bo'lsa-da, qo'l harakatlarini alohida so'zlarga aylantirishni ta'minlaydigan dastlabki natijalarga allaqachon erishilgan.

Tadqiqotlarimiz markazida kompyuterda ko'rish orqali imo-ishorani matnga o'girish masalasi turibdi, bunda “YOLO” (“You Only Look Once”) modeli asosiy rol o'ynaydi. Chunki u boshqa modellardan farqli o'laroq, videokadrlardagi ob'yektlarni (qo'llarni) bir vaqtning o'zida aniqlab, lokalizatsiya qilishda yuqori tezlikda real vaqt rejimida kechikishsiz tahlilni ta'minlaydi. Ammo nozik harakat detallarini o'qish uchun “MediaPipe” kutubxonasi integratsiya qilinadi.

Bu tajribalarning muhim jihati — har bir tushunilgan so'z ortida inson taqdiri va qadr-qimmati yotibdi. “O'zbekiston – 2030” strategiyasida belgilanganidek, raqamli texnologiyalar insonni yuksaltirishga xizmat qilishi kerak; hozirgi tizim hali gapirmayotgan bo'lsa-da, u imo-ishorani tushunib, matn shaklida chiqaradi. Bu esa eshitishda nuqsoni bo'lganlar uchun o'z fikrlarini boshqalarga yetkazish imkonini beradi va yaqin kelajakda har bir xizmat maskani yoki mobil qurilmada standart vositaga aylanadi. Hozirgi natijalar “vizual lug'at” bosqichida bo'lib, kundalik hayotdagi “salom”, “rahmat”, “ha // yo'q”, “yordam bering” kabi tayanch so'zlarni taniy olishga yo'naltirilgan. Imo-ishora tilini matnga yoki nutqqa o'girish (“Sign-to-Text/Speech”) jarayoni zamonaviy sun'iy intellekt va kompyuterda ko'rish sohalarining eng murakkab va ijtimoiy ahamiyatga ega yo'nalishlaridan biri hisoblanadi. U kameradan olingan videotasvirlarni real vaqt rejimida semantik ma'noga ega bo'lgan til birliklariga aylantirishni ko'zda tutadi.

Bu yondashuvning texnik asosi inson harakatlarini tahlil qilishga tayanadi va vizual ma'lumotlarni yig'ish jarayonida oddiy “RGB” kameralardan foydalanish tizimning ommabopligini ta'minlaydi. Yoritish darajasi, fon shovqinlari va kiyim rangining tasvir bilan uyg'unlashib ketishi kabi muammolar algoritmlarning aniqligiga sezilarli ta'sir ko'rsatadi. Dastlabki ishlov berish bosqichida tasvirdagi foydalanuvchi tanasining holati normalizatsiya qilinadi va “MediaPipe” kutubxonasi yordamida har bir qo'l uchun 21 ta asosiy tayanch nuqtasi (landmarks) aniqlanib, ularning “x”, “y”, “z” koordinatalari orqali skelet modeli yaratiladi. Bu tizimga butun boshli videoni emas, balki faqatgina raqamli koordinatalar ketma-ketligini tahlil qilish imkonini beradi.

Shu bilan birga, imo-ishoralarni tasniflashda statik (“fingerspelling”) va dinamik (so'z va gaplar) harakatlar farqlanadi. Bunda statik ishoralarni aniqlashda “Convolutional Neural Networks” (CNN) modeli 98 foizgacha aniqlikni ko'rsatsa, vaqt davomida o'zgarib turuvchi dinamik harakatlarni qayta ishlash uchun “Long Short-Term Memory” (LSTM) va “Gated Recurrent Units” (GRU) kabi rekurrent neyron tarmoqlari qo'llaniladi. Chunki bu modellar har bir kadrni oldingi kadrlar bilan mantiqiy bog'lash xususiyatiga ega. Tadqiqot natijalari shuni ko'rsatadiki, faqatgina qo'l harakatlariga tayanish har doim ham kutilgan natijani bermaydi. Binobarin, imo-ishora tilining to'laqonli ma'nosi yuz mimikasi (“eyebrow movement”), lab harakati va tana holati (“pose estimation”) kabi non-manual xususiyatlar (“NMFs”) orqali shakllanadi. Bu tizimdan multimodal yondashuvni, ya'ni bir vaqtning o'zida bir necha neyron tarmoqlarini integratsiya qilishni talab qiladi.

“LSTM” tarmoqlari yordamida so'zlarni gaplarga birlashtirish va grammatik qurilmani o'rganishga o'tishni ta'minlaydi, natijada imo-ishora tilining “alifbo”si va dastlabki so'zlarini kompyuterga o'rgatish orqali eshitish nuqsoniga ega shaxslar uchun to'laqonli raqamli ko'prik yaratiladi, bu esa jamiyatdagi inklyuzivlikni yanada kuchaytiradi.

Ilyosbek VALIXONOV,

Farg'ona davlat texnika

universiteti talabasi.

Yangiliklarni do'stlaringizga ulashing

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan

4 × 3 =