Жобалар

Қазақ, ағылшын және орыс тілдерінде көптілді автоматты түрде тану жүйесі

Бұл Қазақстанда қолданылатын үш тілге: қазақ, орыс және ағылшын тілдеріне арналған көптілді сөзді Автоматты түрде танудың алғашқы зерттеуі. Қазақстан – қазақ тілі ресми мемлекеттік тіл болып табылатын көп ұлтты ел, сонымен бірге орыс және ағылшын тілдері ұлтаралық және халықаралық қатынас тілдері болып табылады. Осыған байланысты біз қазақ, орыс және ағылшын тілдерін бір мезгілде тану үшін қолданылатын бірыңғай бірлескен модельдің алғашқы зерттеуіне бастамашылық жасаймыз. Бұл жұмыс Қазақстанда және көрші елдерде сөзді қолдау технологияларын ілгерілету және сөзді өңдеу саласындағы зерттеулерді одан әрі дамытуға ықпал етеді деп санаймыз.

Қазақ, орыс және ағылшын тілдері үшін көптілді сөзді Автоматты түрде тану жүйесінің алғашқы егжей-тегжейлі зерттеуін жүргізуден басқа, бұл жұмысқа басқа да үлестер мыналар болып табылады:

  • Біз ағылшын тілінің қазақ акценті бар 7 сағаттық транскрипцияланған аудиожазбаларын ұсынамыз(яғни, қазақ тілінде сөйлейтіндер SpeakingFaces деректер жиынтығынан алынған ағылшын сөйлемдерін оқиды [1]).
  • Біз орыс тіліне арналған OpenSTT [2] қолмен тазартылған деректер жиынтығының 334 сағаттық қосалқы жиынтығын ұсынамыз, оны орыс тілінде сөз танитын автономды жүйелерін оқыту үшін де қолдануға болады.

Егер сіз корпусты коммерциялық мақсатта қолдансаңыз, осы сөйлемді өніміңізге немесе қызметіңізге қосыңыз:

Our product uses ISSAI Multilingual (Kazakh, Russian, English) Speech Corpus (https://doi.org/10.48342/0qzd-fk83), which is available under a Creative Commons Attribution 4.0 International License.

Егер сіз корпусты зерттеу үшін қолдансаңыз, осы сөйлемді көрсетіңіз:

[Arxiv citation]

Төменде өзбек тілі корпусының көмегімен жасалған сөзді автоматты түрде тану жүйесінің демо-нұсқасы берілген. “Жазу” батырманы басып, кері санақ нөлге жеткенше бірден сөйлеңіз. Танылған нәтиже 10 секундтан кейін “Жазу” батырманың үстінде пайда болады. Кейбір браузерлер дыбыс жазу функцияларын қолдамайтынын ескеріңіз:

Нұсқаулық:

  • “Жазу” батырманы басып, кері санақ нөлге жеткенше бірден сөйлеңіз (Қазақ, Орыс немесе Ағылшын тілдерінде)
  • Танылған нәтиже 10 секундтан кейін “Жазу” батырманың үстінде пайда болады

Браузердің кейбір нұсқалары дыбыс жазу технологиясын қолдамайды. Егер бұл сіздің жағдайыңыз болса, жұмыс үстеліндегі құрылғыларда заманауи шолғыштарды қолдануды қарастырыңыз.

GitHub icon
Powered by GitHub

The dataset statistics for the Kazakh, Russian, and English languages. Utterance and word counts are in thousands (k) or millions (M), and durations are in hours (hr). The overall statistics ‘Total’ are obtained by combining the training, validation,and test sets across all the languages.

Languages Corpora Duration Utterances Words
1 Kazakh train KSC [3] 318.4 hr 147.2k 1.6M
valid 7.1 hr 3.3k 35.3k
test 7.1 hr 3.3k 35.9k
2 Russian train OpenSTT-CS334 327.1 hr 223.0k 2.3M
valid 7.1 hr 4.8k 48.3k
test-B (books) OpenSTT [2] 3.6 hr 3.7k 28.1k
test-Y (YouTube) 3.4 hr 3.9k 31.2k
3 English train CV-330 330.0 hr 208.9k 2.2M
valid CV [4] 7.4 hr 4.3k 43.9k
test 7.4 hr 4.6k 44.3k
test-SF (YouTube) SpeakingFaces [1] 7.7 hr 6.8k 37.7k
4 Total train - 975.6 hr 579.3k 6.0M
valid 21.6 hr 12.4k 127.5k
test 29.1 hr 22.5k 177.3k

[1] Abdrakhmanova, M., Kuzdeuov, A., Jarju, S., Khassanov, Y., Lewis, M., Varol, H.A.: SpeakingFaces: A large-scale multimodal dataset of voice commands with visual and thermal video streams. Sensors 21(10) (2021).

[2] Slizhikova, A., Veysov, A., Nurtdinova, D., Voronin, D.: Russian open speech to text dataset. https://github.com/snakers4/open_stt accessed: 2021-01-15.

[3] Khassanov, Y., Mussakhojayeva, S., Mirzakhmetov, A., Adiyev, A., Nurpeiissov,M., Varol, H.A.: A crowdsourced open-source Kazakh speech corpus and initial speech recognition baseline. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. pp. 697–706. Association for Computational Linguistics, 2021.

[4] Ardila, R., Branson, M., Davis, K., Kohler, M., Meyer, J., Henretty, M., Morais,R., Saunders, L., Tyers, F.M., Weber, G.: Common voice: A massively-multilingualspeech corpus. In: LREC. pp. 4218–4222. ELRA (2020)