В целях развития исследований и инноваций, а также развития казахского языка в цифровой среде в 2021 году команда ISSAI разработала базу данных «KazakhTTS», состоящую из казахской речи и аудио.
KazakhTTS – это высококачественный набор речевых данных с открытым исходным кодом, который содержит более 90 часов казахской речи и аудио, записанных профессиональными дикторами (мужским и женским голосами). Набор данных вызвал большой интерес у представителей науки и индустрии и был скачен более 500 раз менее чем за год.
В 2022 году мы представляем новую версию набора данных под названием “KazakhTTS2”. KazakhTTS2 содержит больше данных, спикеров и тем. В частности, мы увеличили размер аудио-данных с 90 до 271 часа. Мы добавили три новых голоса, озвучивающих казахский текст – три дополнительных спикера (два женских голоса и один мужской). У каждого спикера более чем 25 часов расшифрованных аудио-данных. Мы разнообразили темы аудио-данных дополнительными книгами и статьями из Википедии.
Набор данных KazakhTTS2 можно использовать для создания программ преобразования казахского текста в речь, для многочисленных приложений как интерактивные системы, виртуальные помощники, навигационные системы, автоматические объявления и вспомогательные технологии для людей с особыми потребностями. Как и первая версия, набор данных KazakhTTS2 доступен бесплатно для скачивания на сайте ISSAI.
Для демонстрации KazakhTTS2, ISSAI разработали демо-версию преобразования казахского текста в речь. Демо поддерживает пять разных голосов.
Инструкция по демонстрации синтеза казахской речи:
ISSAI invites academic and industrial organizations to download the dataset and contribute to the use of the Kazakh language in the digital world.
Пожалуйста, обратите внимание: это ссылка на скачивание БАЗЫ ДАННЫХ KazakhTTS, а не демо-версия технологии преобразования казахского текста в речь (не озвучивание)