ISSAI - Institute of Smart Systems and Artificial Intelligence

Корпус узбекской речи и Автоматическое распознавание речи

Корпус узбекской речи (USC) был разработан в сотрудничестве между ISSAI и Лабораторией обработки изображений и речи на кафедре компьютерных систем Ташкентского университета информационных технологий (https://tuit.uz/en/kompyuter-tizimlari). USC включает в себя 958 различных динамиков с в общей сложности 105 часами расшифрованных аудиозаписей. Для обеспечения высокого качества USC был вручную проверен носителями языка. USC в первую очередь предназначен для автоматического распознавания речи (ASR), однако он также может использоваться для решения других задач, связанных с речью, таких как синтез речи и перевод речи. Насколько нам известно, USC является первым корпусом узбекской речи с открытым исходным кодом, доступным как для академического, так и для коммерческого использования в соответствии с международной лицензией Creative Commons Attribution 4.0. Мы ожидаем, что USC станет ценным ресурсом для сообщества исследователей речи в целом и станет базовым набором данных для исследований ASR в Узбекистане.

Проект по сбору данных об узбекской речи продолжается, если вы хотите внести свой вклад, пожалуйста, посетите: https://usc.spai.uz/en/

Если вы используете корпус в коммерческих целях, пожалуйста, добавьте это заявление в свой продукт или услугу:

Our product uses ISSAI and TUIT Uzbek Speech Corpus (https://doi.org/10.48342/drss-8q87), which is available under a Creative Commons Attribution 4.0 International License.

Если вы используете корпус для исследований, пожалуйста, укажите его как:

Musaev, M., Mussakhojayeva, S., Khujayorov, I., Khassanov, Y., Ochilov, M., & Varol, H. A. (2020). USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. arXiv preprint arXiv:2107.14419.

Скачать данные Скачать код

This work is licensed under a Creative Commons Attribution 4.0 International license.

The USC dataset specifications.

	Category	Train	Valid	Test	Total
1	Duration (hours)	96.4	4.0	4.5	104.9
2	# Utterances	100,767	3,783	3,837	108,387
3	# Words	569.0k	22.5k	27.1k	618.6k
4	# Unique Words	59.5k	8.4k	10.5k	63.1k
5	# Speakers	879	41	38	958

Projects

Корпус узбекской речи и Автоматическое распознавание речи