Корпус казахского языка

Корпус казахской речи содержит около 335 часов аудиозаписей, включающей более 154 000 предложений, произнесенных участниками из разных регионов РК, возрастных групп и пола. Корпус был тщательно проверен носителями казахского языка в целях обеспечения высокого качества. Корпус казахской речи – это крупнейшая общедоступная база данных, разработанная для продвижения различных приложений обработки казахской речи и языка, таких как распознавание речи и синтез речи. База данных Корпуса казахской речи доступна для публичного и коммерческого использования по запросу в соответствии с международной лицензией Creative Commons Attribution 4.0.

Внизу демонстрация автоматической системы распознавания речи, построенной с использованием Корпуса казахской речи . Пожалуйста, нажмите кнопку “Record” и начните говорить сразу, пока обратный отсчет не достигнет нуля. Распознанный результат речи отобразится над кнопкой “Record” через несколько секунд (10+ секунд) .

  • Нажмите кнопку “RECORD” и сразу начните говорить (на казахском языке), пока обратный отсчет не достигнет нуля
  • Распознанный результат речи в виде текста отобразится над кнопкой “Record” через несколько секунд (10+ секунд) .

В некоторых версиях браузеров запись аудио не поддерживается. Просьба зайти на данную страничку, используя обновленный браузер с настольного устройства (PC/ноутбук).


Корпус казахского языка

Y. Khassanov, S. Mussakhojayeva, A. Mirzakhmetov, A. Adiyev, M. Nurpeiissov and H. A. Varol. “A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech Recognition Baseline”. arXiv preprint arXiv:2009.10334 (2020). Link to paper: https://arxiv.org/abs/2009.10334. DOI link:  https://doi.org/10.48342/gkg9-gn84