Projects

Корпус узбекской речи и Автоматическое распознавание речи

Корпус узбекской речи (USC) был разработан в сотрудничестве между ISSAI и Лабораторией обработки изображений и речи на кафедре компьютерных систем Ташкентского университета информационных технологий (https://tuit.uz/en/kompyuter-tizimlari). USC включает в себя 958 различных динамиков с в общей сложности 105 часами расшифрованных аудиозаписей. Для обеспечения высокого качества USC был вручную проверен носителями языка. USC в первую очередь предназначен для автоматического распознавания речи (ASR), однако он также может использоваться для решения других задач, связанных с речью, таких как синтез речи и перевод речи. Насколько нам известно, USC является первым корпусом узбекской речи с открытым исходным кодом, доступным как для академического, так и для коммерческого использования в соответствии с международной лицензией Creative Commons Attribution 4.0. Мы ожидаем, что USC станет ценным ресурсом для сообщества исследователей речи в целом и станет базовым набором данных для исследований ASR в Узбекистане.

Проект по сбору данных об узбекской речи продолжается, если вы хотите внести свой вклад, пожалуйста, посетите: https://usc.spai.uz/en/

Если вы используете корпус в коммерческих целях, пожалуйста, добавьте это заявление в свой продукт или услугу:

Our product uses ISSAI and TUIT Uzbek Speech Corpus (https://doi.org/10.48342/drss-8q87), which is available under a Creative Commons Attribution 4.0 International License.

Если вы используете корпус для исследований, пожалуйста, укажите его как:

Musaev, M., Mussakhojayeva, S., Khujayorov, I., Khassanov, Y., Ochilov, M., & Varol, H. A. (2020). USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. arXiv preprint arXiv:2107.14419.

The USC dataset specifications.

Category Train Valid Test Total
1 Duration (hours) 96.4 4.0 4.5 104.9
2 # Utterances 100,767 3,783 3,837 108,387
3 # Words 569.0k 22.5k 27.1k 618.6k
4 # Unique Words 59.5k 8.4k 10.5k 63.1k
5 # Speakers 879 41 38 958