12:46 / 12.03.2023
135503

Ўзбекча “Алиса” қандай ишлаб чиқилди? — лойиҳа асосчилари билан суҳбат

Ўзбекчани тушуниб, унда гапира оладиган сунъий интеллект яратилди. Эндиликда бирор юмушни бажариш ёки маълумотларни топиш керак бўлса, “Siri”, “Alexa” ёки “Алиса”га эмас, “Моҳира”га ҳам мурожаат қилиш мумкин. Хўш, янги сунъий идрок қандай ишлайди? Қачон ишга туширилади? Бунда киберхавфсизлик масалалари инобатга олинганми? Лойиҳа асосчилари Kun.uz’га берган интервьюсида шу ҳақда гапириб берди.

Дастлаб “Mohir AI” лойиҳаси асосчиси Анвар Нарзуллаев мазкур сунъий интеллект аввалига “Азиза” деб номлангани, кейинроқ эса бу ном ўзгартирилганига тўхталди.

“Алишер Саъдуллаев (Ёшлар ишлари агентлиги директори) номини «Азиза» бўлсин деб таклиф берганди. Бунинг устида ҳам ўрганиш қилдик. Масалан, «Apple»ники «Siri», Россияники «Алиса». “Нима учун бундай исм танлашган” – деб эътибор берсак, энг кам ишлатиладиган исм танлаш керак экан. Чунки кўп қўлланадиган исм бўлса, сунъий интеллект ёқилиб кетаверади. Агар биз сунъий интеллектимизга “Азиза” деб исм қўйсак, у ишлаб кетаверарди. Шунинг учун «Моҳир» ва «Моҳира» деб танладик. Ҳозирда иккаласи учун алоҳида қилиб 100 соатдан овоз ёзиляпти.

Биринчи навбатда сунъий интеллектни маҳаллийлаштиришни мақсад қилганмиз. Чунки бу нарса сотиб олинадиган тайёр маҳсулот эмас, уни тилимизга мослаштиришимиз керак эди.

Глобал бозорда, мисол учун, Яндекс рус тилида, бу борада яхши ишлар қилинган. Лекин Ўзбекистонда Яндекс бошқа маҳсулотлар билан кириб келган бўлса ҳам, ўзбек тилидаги сунъий интеллекти йўқ. Бошқа компаниялар билан ҳам ҳолат худди шундай: Microsoft, Google. Microsoft’нинг ўзбек тилидаги сунъий интеллекти яқинда чиқди, лекин унинг функциялари жуда чегараланган. Яъни сунъий интеллект ўзбек тилида ишлаши учун унинг устида ўзбек мутахассислари ишлаши керак. Фақат дастурчилар эмас, ҳар бир соҳа вакили ўз ҳиссасини қўшиши керак. Масалан, суд тизими учун шу соҳа вакили, тиббиёт учун ҳам ўз вакили бўлиши ўзбек тилида қатнашиши керак. Шунда бу нарса ўзбекча бўла олади.

Ҳозирги замонавий сунъий интеллектлар жуда катта маълумотлар устига қурилади. Уни яратиш жараёнида катта ҳажмдаги маълумотлар керак бўлади. Шу нарса узоқ йиллар давомида катта муаммо бўлиб келяпти. Бизда эса ўзбек тилидаги очиқ маълумотлар жуда кам. Давлат ташкилотлари ёпиқ, маълумотларни бермайди. Махфий бўлмаган ахборотлар ҳам йиғилмаган ёки тартибли қилиб жамланмаган. Маълумот олишимиз учун бизга доим Статистика қўмитаси (ҳозирги Статистика агентлиги)нинг сайти кўрсатилади, лекин у ерда жуда кам, чегараланган маълумотлар. Шунинг учун ҳам айни шу масалада “UzbekVoice AI” лойиҳаси туртки бўлди. Лойиҳа раҳбари Бахтиёр билан танишиб қолганимда, базаларни йиғаётганини айтиб, сунъий интеллект қисмини йиғишда ёрдам бериши бўйича таклиф қилди. Шу билан ишлар бошланиб кетди. Энг катта туртки маълумотлар базаси борлиги бўлди.

Ўзбек тилида биринчи бўлиб матнни аудиога ёки аудиони матнга ўгирадиган шаклларини қиляпмиз десак нотўғри бўлади, лекин бизнинг модел аниқлиги баланд бўлганлардан дастлабкиси ҳисобланади. Биз буни оммага чиқараётган биринчи ташкилот бўламиз. “UzbekVoice AI”нинг шарти шундай бўлдики, бу оммавий бўлиши керак. Кейинчалик булардан бошқалар ҳам фойдалана олиши лозим, уни ёпиқ ёки ўзимиз фойдаланадиган нарса қилмасликка келишдик. Ўзимиз ҳам қанчадир қисмидан тижорий мақсадда ёпиқ тарзда фойдаланамиз”, деди Нарзуллаев.

Шунингдек, “UzbekVoice AI” лойиҳасининг асосчиси Бахтиёр Ҳасанов ҳам сунъий интеллект, умуман дастурчи, тадқиқотчилар фойдаланиши учун ишлаб чиқилган маълумотлар базаси ҳақида гапириб берди.

“Ўзбек тилини тушунтиришда компьютерга жуда катта маълумотлар базаси керак экан. Бу маълумотлар базаси эса очиқ ресурсларда йўқ. Шунинг учун “UzbekVoice AI” лойиҳасининг мақсади дастурчиларга, тадқиқотчиларга, умуман, жамоатчиликка ишлатиш учун очиқ база яратиш бўлди.

Лойиҳанинг биринчи босқичи 2021 йилда бошланган. Унда 300 соатга яқин овоз йиғилган ва «Mozilla common voice» платформасига жойлаштирилган. Ўтган 2022 йилда иккинчи босқич бўлди ва минг соатдан кўп овоз йиғилди. Мақсад эса ўзбек тилидаги очиқ маълумотларни барчага бериш. Уни бир шахс ёки катта корпорациялар олиб, монополия қилиб олмаслиги учун шу маълумотларни очиқ тарзда бериш керак деб ўйладик.

Келажакда шевани тушуниш бўйича иш олиб бормоқчимиз. Бунга тахминан 4 минг соатли сўзлар, овозлар етади деб ўйлаяпмиз. 2023 йил охирига қадар йиғиш ниятимиз бор. Аммо бир муаммо бўляптики, одамлар андижонлик, хоразмлик бўлса ҳам матнни берганимизда шевада ўқимас экан. Тўғри, шева озгина билиниши мумкин, лекин жумла қандай ёзилган бўлса, шундай ўқийверишаркан. Шунинг учун бошқача йўл тутмоқчимиз энди. Бу ҳақда кейинроқ эълон қиламиз. Ҳозирга келиб шунинг ярмига эришиб қолдик, аммо тўлиқ эмас.

Жуда катта ҳажмда матнлар, маълумотлар базаси бор. Мана шу матнларни биз иштирокчиларга бот орқали берамиз, улар ўқийди. Иштирокчи ўқиган матнларни эса бошқа одамлар тўғри ёки нотўғри ўқиганини текшириб кўради. Тўғри мутолаа қилинганини икки нафар одам тасдиқласа, тўғри ўқилган матнлар базасига тушади. Бундан эса тадқиқотчилар, сунъий интеллект билан шуғулланувчилар ҳам фойдаланиши мумкин бўлади. Ҳисоблаб чиққанимизда корпусимизда 70 мингдан кўпроқ уникал сўзлар ишлатилганини аниқладик. Биз кунлик ҳаётимизда минг ёки 1 минг 200 тадан кўп сўзни ишлатмасак керак.

2021 йилдаги биринчи босқичда 300 соатни йиғиш учун 2-3 ой вақт кетди, унда 100 тача одам онлайн иштирок этганди. Иккинчи босқичда Ёшлар ишлари агентлиги ёрдам берди, бир ой давомида 200 киши тўлиқ вақт офлайн тарзда ишлади. Мана шу 200 нафар одам минг соат йиғиб берди”, деди у.

Юқоридаги видео орқали интервюнинг тўлиқ қисмини томоша қилишингиз мумкин.

Фарруҳ Абдусатторов суҳбатлашди,
Дилшода Шомирзаева тайёрлади.
Тасвирчи Нуриддин Нурсаидов,
монтаж устаси Асрор Алмуродов​
​​​​​​.

Top