Проекты

Многоязычное автоматическое распознавание речи на казахском, английском и русском языках

Это первое исследование многоязычного сквозного (E2E) автоматического распознавания речи для трех языков, используемых в Казахстане: казахского, русского и английского. Казахстан -многонациональная страна, где казахский язык является официальным государственным языком, в то же время русский и английский языки являются языками межнационального и международного общения. В связи с этим мы инициируем первое исследование единой совместной модели, применяемой для одновременного распознавания казахского, русского и английского языков. Мы считаем, что эта работа будет способствовать дальнейшему развитию исследований в области обработки речи и продвижению технологий с поддержкой речи в Казахстане и соседних странах.

Помимо проведения первого подробного исследования многоязычного распознавания речи для казахского, русского и английского языков, другими вкладами в эту работу являются:

  • Мы представляем 7-часовой набор транскрибированных аудиозаписей английского языка с казахским акцентом (т. е. Носители казахского языка читают английские предложения, извлеченные из набора данных SpeakingFaces [1]).
  • Мы представляем 334-часовой суб-набор, вручную очищенного набора данных OpenSTT [2] для русского языка, который также может быть использован для обучения надежных автономных систем распознавания речи на русском языке.

Снизу демо-версия системы автоматического распознавания речи, построенной с использованием многоязычного корпуса речи ISSAI. Пожалуйста, нажмите кнопку “ЗАПИСЬ” и сразу говорите, пока обратный отсчет не достигнет нуля. Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд. Пожалуйста, обратите внимание, что некоторые браузеры не поддерживают функцию записи звука.

Инструкции по использованию многоязычной демо-версии:

  • Нажмите кнопку “ЗАПИСЬ” и говорите немедленно (на казахском, русском или английском языках), пока обратный отсчет не достигнет нуля
  • Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд

Некоторые версии браузера не поддерживают технологию записи звука. Если это ваш случай, пожалуйста, рассмотрите возможность использования современных браузеров на настольных устройствах.

GitHub icon
Powered by GitHub

The dataset statistics for the Kazakh, Russian, and English languages. Utterance and word counts are in thousands (k) or millions (M), and durations are in hours (hr). The overall statistics ‘Total’ are obtained by combining the training, validation,and test sets across all the languages.

Languages Corpora Duration Utterances Words
1 Kazakh train KSC [3] 318.4 hr 147.2k 1.6M
valid 7.1 hr 3.3k 35.3k
test 7.1 hr 3.3k 35.9k
2 Russian train OpenSTT-CS334 327.1 hr 223.0k 2.3M
valid 7.1 hr 4.8k 48.3k
test-B (books) OpenSTT [2] 3.6 hr 3.7k 28.1k
test-Y (YouTube) 3.4 hr 3.9k 31.2k
3 English train CV-330 330.0 hr 208.9k 2.2M
valid CV [4] 7.4 hr 4.3k 43.9k
test 7.4 hr 4.6k 44.3k
test-SF (YouTube) SpeakingFaces [1] 7.7 hr 6.8k 37.7k
4 Total train - 975.6 hr 579.3k 6.0M
valid 21.6 hr 12.4k 127.5k
test 29.1 hr 22.5k 177.3k

[1] Abdrakhmanova, M., Kuzdeuov, A., Jarju, S., Khassanov, Y., Lewis, M., Varol, H.A.: SpeakingFaces: A large-scale multimodal dataset of voice commands with visual and thermal video streams. Sensors 21(10) (2021).

[2] Slizhikova, A., Veysov, A., Nurtdinova, D., Voronin, D.: Russian open speech to text dataset. https://github.com/snakers4/open_stt accessed: 2021-01-15.

[3] Khassanov, Y., Mussakhojayeva, S., Mirzakhmetov, A., Adiyev, A., Nurpeiissov,M., Varol, H.A.: A crowdsourced open-source Kazakh speech corpus and initial speech recognition baseline. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. pp. 697–706. Association for Computational Linguistics, 2021.

[4] Ardila, R., Branson, M., Davis, K., Kohler, M., Meyer, J., Henretty, M., Morais,R., Saunders, L., Tyers, F.M., Weber, G.: Common voice: A massively-multilingualspeech corpus. In: LREC. pp. 4218–4222. ELRA (2020)