Projects

Корпус узбекской речи и Автоматическое распознавание речи

Корпус узбекской речи (USC) был разработан в сотрудничестве между ISSAI и Лабораторией обработки изображений и речи на кафедре компьютерных систем Ташкентского университета информационных технологий (https://tuit.uz/en/kompyuter-tizimlari). USC включает в себя 958 различных динамиков с в общей сложности 105 часами расшифрованных аудиозаписей. Для обеспечения высокого качества USC был вручную проверен носителями языка. USC в первую очередь предназначен для автоматического распознавания речи (ASR), однако он также может использоваться для решения других задач, связанных с речью, таких как синтез речи и перевод речи. Насколько нам известно, USC является первым корпусом узбекской речи с открытым исходным кодом, доступным как для академического, так и для коммерческого использования в соответствии с международной лицензией Creative Commons Attribution 4.0. Мы ожидаем, что USC станет ценным ресурсом для сообщества исследователей речи в целом и станет базовым набором данных для исследований ASR в Узбекистане.

Проект по сбору данных об узбекской речи продолжается, если вы хотите внести свой вклад, пожалуйста, посетите: https://usc.spai.uz/en/

Если вы используете корпус в коммерческих целях, пожалуйста, добавьте это заявление в свой продукт или услугу:

Our product uses ISSAI and TUIT Uzbek Speech Corpus (https://doi.org/10.48342/drss-8q87), which is available under a Creative Commons Attribution 4.0 International License.

Если вы используете корпус для исследований, пожалуйста, укажите его как:

Musaev, M., Mussakhojayeva, S., Khujayorov, I., Khassanov, Y., Ochilov, M., & Varol, H. A. (2020). USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. arXiv preprint arXiv:2107.14419.

Внизу демо-версия системы автоматического распознавания речи, построенной с использованием корпуса узбекской речи. Пожалуйста, нажмите кнопку “ЗАПИСЬ” и говорите сразу, пока обратный отсчет не достигнет нуля. Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд. Пожалуйста, обратите внимание, что некоторые браузеры не поддерживают функции записи звука:

Инструкция:

  • Нажмите кнопку “ЗАПИСЬ” и говорите cразу (на узбекском языке), пока обратный отсчет не достигнет нуля
  • аспознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд

Некоторые версии браузера не поддерживают технологию записи звука. Если это ваш случай, пожалуйста, рассмотрите возможность использования современных браузеров на настольных устройствах.

GitHub icon
Powered by GitHub

The USC dataset specifications.

Category Train Valid Test Total
1 Duration (hours) 96.4 4.0 4.5 104.9
2 # Utterances 100,767 3,783 3,837 108,387
3 # Words 569.0k 22.5k 27.1k 618.6k
4 # Unique Words 59.5k 8.4k 10.5k 63.1k
5 # Speakers 879 41 38 958