Это первое исследование многоязычного сквозного (E2E) автоматического распознавания речи для трех языков, используемых в Казахстане: казахского, русского и английского. Казахстан -многонациональная страна, где казахский язык является официальным государственным языком, в то же время русский и английский языки являются языками межнационального и международного общения. В связи с этим мы инициируем первое исследование единой совместной модели, применяемой для одновременного распознавания казахского, русского и английского языков. Мы считаем, что эта работа будет способствовать дальнейшему развитию исследований в области обработки речи и продвижению технологий с поддержкой речи в Казахстане и соседних странах.
Помимо проведения первого подробного исследования многоязычного распознавания речи для казахского, русского и английского языков, другими вкладами в эту работу являются:
Снизу демо-версия системы автоматического распознавания речи, построенной с использованием многоязычного корпуса речи ISSAI. Пожалуйста, нажмите кнопку “ЗАПИСЬ” и сразу говорите, пока обратный отсчет не достигнет нуля. Распознанный результат будет отображаться над кнопкой “ЗАПИСЬ” через 10 секунд. Пожалуйста, обратите внимание, что некоторые браузеры не поддерживают функцию записи звука.
Инструкции по использованию многоязычной демо-версии:
Некоторые версии браузера не поддерживают технологию записи звука. Если это ваш случай, пожалуйста, рассмотрите возможность использования современных браузеров на настольных устройствах.
The dataset statistics for the Kazakh, Russian, and English languages. Utterance and word counts are in thousands (k) or millions (M), and durations are in hours (hr). The overall statistics ‘Total’ are obtained by combining the training, validation,and test sets across all the languages.
Languages | Corpora | Duration | Utterances | Words | ||
---|---|---|---|---|---|---|
1 | Kazakh | train | KSC [3] | 318.4 hr | 147.2k | 1.6M |
valid | 7.1 hr | 3.3k | 35.3k | |||
test | 7.1 hr | 3.3k | 35.9k | |||
2 | Russian | train | OpenSTT-CS334 | 327.1 hr | 223.0k | 2.3M |
valid | 7.1 hr | 4.8k | 48.3k | |||
test-B (books) | OpenSTT [2] | 3.6 hr | 3.7k | 28.1k | ||
test-Y (YouTube) | 3.4 hr | 3.9k | 31.2k | |||
3 | English | train | CV-330 | 330.0 hr | 208.9k | 2.2M |
valid | CV [4] | 7.4 hr | 4.3k | 43.9k | ||
test | 7.4 hr | 4.6k | 44.3k | |||
test-SF (YouTube) | SpeakingFaces [1] | 7.7 hr | 6.8k | 37.7k | ||
4 | Total | train | - | 975.6 hr | 579.3k | 6.0M |
valid | 21.6 hr | 12.4k | 127.5k | |||
test | 29.1 hr | 22.5k | 177.3k |
[1] Abdrakhmanova, M., Kuzdeuov, A., Jarju, S., Khassanov, Y., Lewis, M., Varol, H.A.: SpeakingFaces: A large-scale multimodal dataset of voice commands with visual and thermal video streams. Sensors 21(10) (2021).
[2] Slizhikova, A., Veysov, A., Nurtdinova, D., Voronin, D.: Russian open speech to text dataset. https://github.com/snakers4/open_stt accessed: 2021-01-15.
[3] Khassanov, Y., Mussakhojayeva, S., Mirzakhmetov, A., Adiyev, A., Nurpeiissov,M., Varol, H.A.: A crowdsourced open-source Kazakh speech corpus and initial speech recognition baseline. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. pp. 697–706. Association for Computational Linguistics, 2021.
[4] Ardila, R., Branson, M., Davis, K., Kohler, M., Meyer, J., Henretty, M., Morais,R., Saunders, L., Tyers, F.M., Weber, G.: Common voice: A massively-multilingualspeech corpus. In: LREC. pp. 4218–4222. ELRA (2020)