ISSAI - Institute of Smart Systems and Artificial Intelligence

KazakhTTS: қазақ мәтінін ашық бастапқы кодымен сөз синтездеуге арналған деректер жиынтығы

Бұл мақалада бүкіл әлем бойынша 13 миллионнан астам адам сөйлейтін қазақ тілі, ресурстары төмен тіл үшін ашық бастапқы коды бар сөйлеу синтезі туралы жоғары сапалы мәліметтер жиынтығы берілген. Деректер жиынтығы шамамен 93 сағаттық шифрланған аудио жазбалардан тұрады, оларды екі кәсіби спикер (әйел және ер адам) айтады. Бұл ғылыми ортада да, өнеркәсіпте де мәтінді қазақ тілінде сөйлеуге (TTS) түрлендіруге арналған қосымшаларды алға жылжыту үшін жасалған алғашқы кең ауқымды мәліметтер жиынтығы. Бұл мақалада біз мәліметтер жиынтығын әзірлеу процедуралары мен туындаған мәселелерді сипаттап, болашақ үшін маңызды бағыттарды талқылаймыз. Деректер жиынтығының сенімділігін көрсету үшін біз TTS-тің негізгі модельдерін жасадық және оларды орташа субъективті пікір (MOS) арқылы бағаладық. Бағалау нәтижелері біздің деректер жиынтығымызда дайындалған ең жақсы TTS модельдері екі динамик үшін де MOS 4-тен жоғары болатындығын көрсетеді, бұл оларды практикалық қолдануға жарамды етеді. Деректер жиынтығы, оқыту рецепті және алдын-ала дайындалған TTS модельдері жалпыға қол жетімді.

Information about the publication

https://issai.nu.edu.kz/wp-content/uploads/2021/09/1-5.jpg

Authors:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, H.A.

Публикациялар

KazakhTTS: қазақ мәтінін ашық бастапқы кодымен сөз синтездеуге арналған деректер жиынтығы

Information about the publication

Authors:

Басқа публикациялар