Корпус узбекской речи (USC) был разработан в сотрудничестве между ISSAI и Лабораторией обработки изображений и речи на кафедре компьютерных систем Ташкентского университета информационных технологий (https://tuit.uz/en/kompyuter-tizimlari). USC включает в себя 958 различных динамиков с в общей сложности 105 часами расшифрованных аудиозаписей. Для обеспечения высокого качества USC был вручную проверен носителями языка. USC в первую очередь предназначен для автоматического распознавания речи (ASR), однако он также может использоваться для решения других задач, связанных с речью, таких как синтез речи и перевод речи. Насколько нам известно, USC является первым корпусом узбекской речи с открытым исходным кодом, доступным как для академического, так и для коммерческого использования в соответствии с международной лицензией Creative Commons Attribution 4.0. Мы ожидаем, что USC станет ценным ресурсом для сообщества исследователей речи в целом и станет базовым набором данных для исследований ASR в Узбекистане.
Проект по сбору данных об узбекской речи продолжается, если вы хотите внести свой вклад, пожалуйста, посетите: https://usc.spai.uz/en/
Если вы используете корпус в коммерческих целях, пожалуйста, добавьте это заявление в свой продукт или услугу:
Our product uses ISSAI and TUIT Uzbek Speech Corpus (https://doi.org/10.48342/drss-8q87), which is available under a Creative Commons Attribution 4.0 International License.
Если вы используете корпус для исследований, пожалуйста, укажите его как:
Musaev, M., Mussakhojayeva, S., Khujayorov, I., Khassanov, Y., Ochilov, M., & Varol, H. A. (2020). USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. arXiv preprint arXiv:2107.14419.
Внизу демо-версия системы автоматического распознавания речи, построенной с использованием корпуса узбекской речи. Пожалуйста, нажмите кнопку “ЗАПИСЬ” и говорите сразу, пока обратный отсчет не достигнет нуля. Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд. Пожалуйста, обратите внимание, что некоторые браузеры не поддерживают функции записи звука:
Инструкция:
Некоторые версии браузера не поддерживают технологию записи звука. Если это ваш случай, пожалуйста, рассмотрите возможность использования современных браузеров на настольных устройствах.
The USC dataset specifications.
Category | Train | Valid | Test | Total | |
---|---|---|---|---|---|
1 | Duration (hours) | 96.4 | 4.0 | 4.5 | 104.9 |
2 | # Utterances | 100,767 | 3,783 | 3,837 | 108,387 |
3 | # Words | 569.0k | 22.5k | 27.1k | 618.6k |
4 | # Unique Words | 59.5k | 8.4k | 10.5k | 63.1k |
5 | # Speakers | 879 | 41 | 38 | 958 |