Публикации

KazakhTTS: Набор данных для синтеза Казахского текста в речь с открытым исходным кодом

В этой статье представлен высококачественный набор данных синтеза речи с открытым исходным кодом для казахского языка, языка с низким уровнем ресурсов, на котором говорят более 13 миллионов человек по всему миру. Набор данных состоит примерно из 93 часов расшифрованных аудиозаписей, на которых говорят два профессиональных оратора (женщина и мужчина). Это первый общедоступный крупномасштабный набор данных, разработанный для продвижения приложений преобразования текста в речь (TTS) на казахском языке как в научных кругах, так и в промышленности. В этой статье мы делимся нашим опытом, описывая процедуры разработки набора данных и возникающие проблемы, а также обсуждаем важные направления на будущее. Чтобы продемонстрировать надежность нашего набора данных, мы построили базовые сквозные модели TTS и оценили их с помощью показателя среднего субъективного мнения (MOS). Результаты оценки показывают, что лучшие модели TTS, обученные на нашем наборе данных, достигают MOS выше 4 для обоих динамиков, что делает их применимыми для практического использования. Набор данных, рецепт обучения и предварительно подготовленные модели TTS находятся в свободном доступе.

Information about the publication

https://issai.nu.edu.kz/wp-content/uploads/2021/09/1-5.jpg

Authors:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, H.A.

Другие публикации