Публикациялар

Өзбек тілі корпусы және сөз тану бойынша алғашқы эксперименттер

Қысқа мазмұны:

Біз өзбек тіліне арналған еркін қол жетімді сөйлеу корпусын ұсынамыз және Марковтың жасырын моделін (DNN-HMM) және сәулетті (E2E) қолдана отырып, сөйлеуді автоматты түрде танудың (ASR) алдын-ала нәтижелері туралы хабарлаймыз. Өзбек тілінің корпусы (USC) 958 түрлі тасымалдаушылардан тұрады, олардың жалпы көлемі 105 сағатты құрайды. Біздің білуімізше, бұл Asr міндетіне арналған алғашқы Ашық бастапқы өзбек тілі корпусы. Жоғары сапаны қамтамасыз ету үшін USC ана тілдерімен қолмен сыналды. Алдымен біз USC жобалау және әзірлеу процедураларын сипаттаймыз, содан кейін ASR эксперименттерін егжей-тегжейлі түсіндіреміз. Эксперимент нәтижелері ASR үшін USC қолдану үшін перспективалы нәтижелерді көрсетеді. Атап айтқанда, 18,1% және 17,4% сөздердегі қателіктер сәйкесінше тексеру және тестілеу жиындарында қол жеткізілді. Эксперименттің репродуктивтілігін қамтамасыз ету үшін біз GitHub репозиторийінде USC мәліметтер жиынтығымен, алдын-ала дайындалған модельдермен және оқыту рецептерімен бөлісеміз (https://github.com/IS2AI/Uzbek_ASR ).

Information about the publication

https://issai.nu.edu.kz/wp-content/uploads/2021/09/16.jpg

Authors:

Muhammadjon Musaev, Saida Mussakhojayeva, Ilyos Khujayorov, Yerbolat Khassanov, Mannon Ochilov, Huseyin Atakan Varol

Басқа публикациялар