Проекты

Корпус Казахской Речи 2

Корпус казахской речи 2 (KSC2) – это первый корпус казахской речи промышленного масштаба с открытым исходным кодом. Корпус KSC2 включает в себя два ранее представленных корпуса: Корпус казахской речи и Преобразование казахского текста в речь 2, и включает дополнительные данные из других источников, таких как телевизионные программы, радио, журналы и подкасты. В общей сложности KSC2 содержит около 1,2 тыс. часов высококачественных расшифрованных данных, содержащих более 600 тыс. высказываний.

Важно отметить, что KSC2 содержит высказывания с переключением кода с казахского на русский, что является обычной практикой общения среди носителей казахского языка.

Набор данных может быть использован профессионалами для разработки различных приложений для обработки казахской речи и языка, таких как виртуальные помощники на казахском языке, роботы, говорящие по-казахски, умные дома и автомобили, приложения с поддержкой голоса и текста, которые также могут помогать людям с особыми потребностями, и многое другое.

Как и первая версия, набор данных KSC2 находится в свободном доступе как для академических исследователей, так и для представителей отрасли.

Если вы используете базу данных ISSAI Kazakh Speech Corpus 2 в коммерческих целях, пожалуйста, добавьте это предложение к своему продукту или услуге:

Our product uses ISSAI Kazakh Speech Corpus 2 (https://doi.org/10.48342/m90y-aj02), which is available under a Creative Commons Attribution 4.0 International License.

Если вы используете базу данных ISSAI Kazakh speech corpus 2 для исследования, пожалуйста, процитируйте ее как:

Mussakhojayeva, S., Khassanov, Y. , Varol, H.A.: KSC2: An Industrial-Scale Open-Source Kazakh Speech Corpus. In: Proceedings of the 23rd INTERSPEECH Conference: pp. 1367-1371. 2022.

Внизу демонстрация автоматической системы распознавания речи, построенной с использованием KSC2. Пожалуйста, нажмите кнопку “ЗАПИСАТЬ” и начните говорить сразу, пока обратный отсчет не достигнет нуля. Распознанный результат речи отобразится над кнопкой “ЗАПИСАТЬ” через несколько секунд (10+ секунд).

  • Нажмите кнопку “ЗАПИСАТЬ” и сразу начните говорить (на казахском языке), пока обратный отсчет не достигнет нуля
  • Распознанный результат речи в виде текста отобразится над кнопкой “ЗАПИСАТЬ” через несколько секунд (10+ секунд).

В некоторых версиях браузеров запись аудио не поддерживается. Просьба зайти на данную страничку, используя обновленный браузер с настольного устройства (PC/ноутбук).