Публикации

Корпус узбекской речи с открытым исходным кодом и Начальные эксперименты по распознаванию речи

Краткое изложение:

Мы представляем свободно доступный корпус речи для узбекского языка и сообщаем о предварительных результатах автоматического распознавания речи (ASR) с использованием как скрытой модели Маркова глубокой нейронной сети (DNN-HMM), так и сквозной архитектуры (E2E). Корпус узбекской речи (USC) включает 958 различных носителей с общим объемом 105 часов расшифрованных аудиозаписей. Насколько нам известно, это первый корпус узбекской речи с открытым исходным кодом, посвященный задаче ASR. Для обеспечения высокого качества USC был вручную проверен носителями языка. Сначала мы опишем процедуры проектирования и разработки USC, а затем подробно объясним проведенные эксперименты ASR. Результаты эксперимента демонстрируют многообещающие результаты для применимости USC для ASR. В частности, частота ошибок в словах 18,1% и 17,4% была достигнута в наборах проверки и тестов соответственно. Чтобы обеспечить воспроизводимость эксперимента, мы делимся набором данных USC, предварительно подготовленными моделями и рецептами обучения в нашем репозитории GitHub (https://github.com/IS2AI/Uzbek_ASR ).

Information about the publication

https://issai.nu.edu.kz/wp-content/uploads/2021/09/16.jpg

Authors:

Muhammadjon Musaev, Saida Mussakhojayeva, Ilyos Khujayorov, Yerbolat Khassanov, Mannon Ochilov, Huseyin Atakan Varol

Другие публикации