Целью распознавания речевых команд (англ. Speech Command Recognition – SCR) является распознавание определенного набора слов из речи и предоставление ответа или действия на основе идентифицированного ключевого слова. Поскольку данная технология требует менее требовательного оборудования по сравнению с распознаванием речи общего назначения, SCR может работать на периферийных устройствах и встроенных системах с низким энергопотреблением.
SCR широко используется в таких приложениях, как устройства умного дома с голосовым управлением, персональные цифровые помощники, робототехника, и промышленная автоматизация. Кроме того, технологию можно использовать в системах безопасности и наблюдения для обнаружения определенных триггерных слов, которые предупреждают правоохранительные органы или службы безопасности о потенциальных угрозах. Большинство систем SCR были разработаны для английского языка благодаря крупному набору данных Google Speech Commands Dataset (GSCD). Этот набор данных доступен в двух версиях: V1 (30 ключевых слов) и V2 (35 ключевых слов) и содержит широкий спектр записей ключевых слов английского языка.
Для создания данных технологий на казахском языке мы разработали набор данных казахских речевых команд (англ. Kazakh Speech Command Recognition – KSCD). Набор данных состоит из 35 ключевых слов, взятых из GSCD-V2 и певеденных на казахский язык. Казахские ключевые слова следующие: “артқа”, “алға”, “оңға”, “солға”, “төмен”, “жоғары”, “жүр”, “тоқта”, “қос”, “өшір”, “иә”, “жоқ”, “үйрен”, “орында”, “нөл”, “бір”, “екі”, “үш”, “төрт”, “бес”, “алты”, “жеті”, “сегіз”, “тоғыз”, “оқы”, “жаз”, “төсек”, “құс”, “мысық”, “ит”, “бақытты”, “үй”, “ағаш”, “көрнекі”, “мәссаған”. Записи имеют продолжительность 1 секунду в формате WAV с частотой дискретизации 16 кГц. Всего в сборе данных через телеграм-бот участвовало 119 участников (62 мужчины, 57 женщины). Собранный набор данных был вручную оценен модераторами для удаления любых некачественных образцов, включая неполные или неправильные высказывания, а также тихие или бесшумные записи. В результате, набор данных содержит 3623 записи. Любой человек по-прежнему может внести свой вклад в развитие данной технологии для казахского языка, приняв участие в сборе данных. Для этого необходимо пройти по следующему телеграм-боту: https://t.me/kz_commands_collector_bot . Имея больше данных, мы можем построить более надежную и точную модель!
Чтобы проверить эффективность KSCD, мы обучили и оценили современную модель SCR — Keyword-MLP. На тестовом наборе модель достигла точности 97%. Мы сделали набор данных, исходный код и предварительно обученные модели общедоступными в нашем репозитории GitHub. Кроме того, мы создали подробные учебные пособия по проекту. Видео доступны на нашем YouTube-канале. Кроме того, мы рекомендуем прочитать нашу статью “Speech Command Recognition: Text-to-Speech and Speech Corpus Scraping Are All You Need”, для получения более подробной информации.