ISSAI - Institute of Smart Systems and Artificial Intelligence

Преобразование казахского текста в речь-2

В целях развития исследований и инноваций, а также развития казахского языка в цифровой среде в 2021 году команда ISSAI разработала базу данных «KazakhTTS», состоящую из казахской речи и аудио.

KazakhTTS – это высококачественный набор речевых данных с открытым исходным кодом, который содержит более 90 часов казахской речи и аудио, записанных профессиональными дикторами (мужским и женским голосами). Набор данных вызвал большой интерес у представителей науки и индустрии и был скачен более 500 раз менее чем за год.

В 2022 году мы представляем новую версию набора данных под названием “KazakhTTS2”. KazakhTTS2 содержит больше данных, спикеров и тем. В частности, мы увеличили размер аудио-данных с 90 до 271 часа. Мы добавили три новых голоса, озвучивающих казахский текст – три дополнительных спикера (два женских голоса и один мужской). У каждого спикера более чем 25 часов расшифрованных аудио-данных. Мы разнообразили темы аудио-данных дополнительными книгами и статьями из Википедии.

Набор данных KazakhTTS2 можно использовать для создания программ преобразования казахского текста в речь, для многочисленных приложений как интерактивные системы, виртуальные помощники, навигационные системы, автоматические объявления и вспомогательные технологии для людей с особыми потребностями. Как и первая версия, набор данных KazakhTTS2 доступен бесплатно для скачивания на сайте ISSAI.

Для демонстрации KazakhTTS2, ISSAI разработали демо-версию преобразования казахского текста в речь. Демо поддерживает пять разных голосов.

Инструкция по демонстрации синтеза казахской речи:

– Вставьте казахский текст в поле ниже (Используйте только Кириллицу и знаки препинания, числа и другие специальные символы должны быть написаны в текстовой форме. Для лучшего результата, разделите длинный текст на более короткие сегменты)

– Затем нажмите кнопку “GET AUDIO”

– Страница перезагрузится, и вы найдете аудио вашего текста под полем. Затем нажмите кнопку “Play” чтобы прослушать звук.

Просим использовать демо-версию проекта и озвучку казахского текста только в благих целях, не использовать для нецензурной речи, а также соблюдать этические нормы.

We’re excited to announce that Text-to-Speech is now available via MangiSoz. Create natural-sounding audio from your text and share it anywhere.

Проекты

Преобразование казахского текста в речь-2