Краткое изложение:
Мы представляем свободно доступный корпус речи для узбекского языка и сообщаем о предварительных результатах автоматического распознавания речи (ASR) с использованием как скрытой модели Маркова глубокой нейронной сети (DNN-HMM), так и сквозной архитектуры (E2E). Корпус узбекской речи (USC) включает 958 различных носителей с общим объемом 105 часов расшифрованных аудиозаписей. Насколько нам известно, это первый корпус узбекской речи с открытым исходным кодом, посвященный задаче ASR. Для обеспечения высокого качества USC был вручную проверен носителями языка. Сначала мы опишем процедуры проектирования и разработки USC, а затем подробно объясним проведенные эксперименты ASR. Результаты эксперимента демонстрируют многообещающие результаты для применимости USC для ASR. В частности, частота ошибок в словах 18,1% и 17,4% была достигнута в наборах проверки и тестов соответственно. Чтобы обеспечить воспроизводимость эксперимента, мы делимся набором данных USC, предварительно подготовленными моделями и рецептами обучения в нашем репозитории GitHub (https://github.com/IS2AI/Uzbek_ASR ).