Проекты

Многоязычное распознавание речи для тюркских языков

Ученые из Института умных систем и искусственного интеллекта Назарбаев Университета (ISSAI) ранее разработали модели распознавания речи для казахского языка. Теперь они расширили свою работу до автоматизированной многоязычной модели, которая может распознавать десять тюркских языков — азербайджанский, башкирский, чувашский, казахский, киргизский, саха, татарский, турецкий, уйгурский и узбекский.

Многоязычные модели, которые были обучены с использованием общих речевых данных, показали более надежные результаты, чем базовые одноязычные модели, при этом лучшая модель достигла снижения средней частоты ошибок в символах и словах на 56% и 54% соответственно.

Результаты экспериментов показали, что снижение частоты ошибок в символах и словах было более вероятным, когда многоязычные модели обучались с использованием данных из родственных тюркских языков, чем когда они разрабатывались с использованием данных из неродственных, нетюркских языков, таких как английский и русский.

В исследовании также был представлен корпус турецкой речи с открытым исходным кодом. Корпус содержит 218,2 часа расшифрованной речи с 186 171 высказыванием и является крупнейшим общедоступным турецким набором данных в своем роде. Наборы данных и коды, использованные для обучения моделей, доступны для загрузки по ссылке: https://github.com/IS2AI/TurkicASR .

Чтобы продемонстрировать использование многоязычной модели автоматического распознавания речи для тюркских языков, ISSAI разработала демо-программу, которая распознает десять тюркских языков, а также русский и английский.

Если вы используете многоязычное автоматическое распознавание речи ISSAI для тюркских языков в коммерческих целях, пожалуйста, добавьте это заявление к своему продукту или услуге:

Our product uses Turkish Speech Corpus ( https://doi.org/10.48342/0xes-sf45), which is available under a Creative Commons Attribution 4.0 International License.

Если вы используете многоязычное автоматическое распознавание речи ISSAI для тюркских языков для научного исследования, пожалуйста, укажите его как:

Mussakhojayeva, S.; Dauletbek, K.; Yeshpanov, R.; Varol, H.A. Multilingual Speech Recognition for Turkic Languages. Information 2023, 14, 74. (https://doi.org/10.3390/info14020074)

Инструкции использования демо-программы:

Пожалуйста, нажмите кнопку “ЗАПИСЬ” и говорите немедленно, пока обратный отсчет не достигнет нуля. Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд. Пожалуйста, обратите внимание, что некоторые браузеры не поддерживают функции записи звука.

  • Нажмите кнопку “ЗАПИСЬ” и немедленно говорите (на одном из десяти тюркских языков, английском или русском), пока обратный отсчет не достигнет нуля.
  • Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд.