Автоматическое распознавание речи (англ. Automatic Speech Recognition) – это технология преобразования человеческой речи в текст с помощью компьютера. Примеры использования данной технологии включают голосовых помощников как Siri и Alexa, виртуальных ассистентов и систем диктовки. Ученые из Института умных систем и искусственного интеллекта Назарбаев Университета (ISSAI) ранее разработали модели распознавания речи для казахского языка. Теперь они расширили свою работу до многоязычной модели, которая может распознавать десять тюркских языков — азербайджанский, башкирский, чувашский, казахский, киргизский, саха, татарский, турецкий, уйгурский и узбекский. Разработанная модель может определить, на каком из десяти тюркских языков человек произнес высказывание и отобразить произнесенную фразу в виде текста на экране. В дополнение к тюркским языками, модель также может распознать английскую и русскую речь.
“Обычно, разработка технологий распознавания речи направлена на языки, которые хорошо представлены в Интернете и имеют большие объемы речевых данных в открытом доступе, например, английский, китайский или японский. Нашей целью было разработать модель распознавания речи для тюркских языков, для большинства из которых существует очень мало таких данных”, – говорит аналитик данных ISSAI Саида Мусаходжаева. “Используя общие черты тюркских языков с точки зрения лексики, фонологии и морфологии, мы хотели разработать надежную многоязычную модель, в которой бы десять тюркских языков взаимно дополняли друг друга”.
Эффективность моделей распознавания речи обычно определяется процентом символов и слов, которые были неправильно распознаны системой. Таким образом, чем ближе этот процент к нулю, тем точнее модель и тем меньше ошибок в распознанном тексте. Например, при распознавании чувашского высказывания распознанный текст многоязычной модели ISSAI содержал 4,9% ошибок в символах и 17,2% ошибок в словах. “Можно сказать, что эти результаты все еще далеки от совершенства. Однако следует иметь в виду, что одноязычные модели, построенные для распознавания только одного тюркского языка, часто дают значительно хуже результаты, чем наша многоязычная модель”, – говорит Кайсар Даулетбек, студент четвертого курса Назарбаев Университета и научный сотрудник ISSAI. “Наша многоязычная модель использует преимущества родства и сходства тюркских языков и дает эффективные результаты, которые были достигнуты благодаря тому что данные языки дополняли друг друга. Например, для башкирского, казахского, татарского, турецкого, уйгурского и узбекского языков процент ошибок в символах, допускаемых нашей моделью, составляет менее 5%”. Для сравнения, этих результатов было бы невозможно достичь, если бы мы создали отдельные одноязычные модели для каждого языка, используя небольшие существующие языковые ресурсы, доступные только для некоторых языков”.
Примечательно, что многоязычная модель распознавания речи, разработанная учеными ISSAI, является первой общей моделью распознавания тюркских языков, и может быть свободно протестирована на сайте Института. Кроме того, все разработанные модели, базы данных и коды, использованные в проекте, доступны в открытом доступе для скачивания. “Одним из фундаментальных этических принципов, которых придерживается ISSAI является принцип прозрачности”, – говорит Рустем Ешпанов, технический лингвист Института. “Проще говоря, каждая исследовательская деятельность и проект, которые осуществляет ISSAI, открыты для общественного оценивания путем размещения протоколов и полученных результатов. Мы считаем необходимым раскрыть дизайн, методы, выводы, ограничения и риски любого исследования, проведенного в стенах ISSAI, и, таким образом, сделать все ресурсы, используемые при разработке многоязычной модели, доступными для всех – от энтузиастов обработки речи до местных разработчиков и предпринимателей международного уровня”.
Интерес Института к разработке многоязычной модели распознавания речи для тюркских языков не случаен. На данный момент ISSAI уже добился успеха в создании первых корпусов казахской речи с открытым исходным кодом (KSC и KSC2), крупномасштабных корпусов преобразования текста в речь на казахском языке с открытым исходным кодом (KazakhTTS и KazakhTTS2), а также крупнейшего открытого набора данных для распознавания именованных объектов на казахском языке (KazNERD). “С момента своего основания в 2019 году Институт прилагал значительные усилия для продвижения казахского языка в цифровом мире”, – говорит профессор Хусейн Атакан Варол, директор-основатель ISSAI. “Однако интерес нашего Института к языку и речевым технологиям не ограничивается казахским языком, а распространяется также и на другие тюркские языки. Таким образом, наш Институт станет одним из научных центров искусственного интеллекта и науки о данных в тюркском мире и Евразии”. Профессор Варол продолжает: “Мы считаем, что наиболее важным результатом этих проектов является подготовка высококвалифицированных технических экспертов, которые будут не только стимулировать технологическое развитие Казахстана, но и охотно делиться и применять свои профессиональные знания и опыт для продвижения технологий в других странах, создавая возможности для будущих поколений”.