ISSAI - Institute of Smart Systems and Artificial Intelligence

Ауызша пәрмендерін тану (ағыл. Speech Command Recognition – SCR) мақсаты сөйлеу сигналынан белгілі бір сөздер жиынтығын тану және анықталған кілт сөзге негізделген нақты жауапты немесе әрекетті іске қосу болып табылады. Бұл технология жалпы мақсаттағы сөйлеуді тануға қарағанда аз талапшыл аппараттық құралдарды қажет ететіндіктен, SCR қуаты төмен перифериялық құрылғыларда және орнатылған жүйелерде жұмыс істей алады.

SCR дауыспен басқарылатын смарт үй құрылғылары, жеке цифрлық көмекшілер, робототехника және өнеркәсіптік автоматтандыру сияқты қолданбаларда кеңінен қолданылады. Бұған қоса, технология құқық қорғау органдарын немесе қауіпсіздік органдарын ықтимал қауіптер туралы ескертетін белгілі бір триггер сөздерді анықтау үшін қауіпсіздік және бақылау жүйелерінде қолданылуы мүмкін. Көптеген SCR жүйелері үлкен Google Speech Commands Dataset (GSCD) арқасында ағылшын тіліне арналған. Бұл деректер жинағы екі нұсқада қол жетімді: V1 (30 кілт сөз) және V2 (35 кілт сөз) және ағылшын тіліндегі кілт сөздер жазбаларының кең ауқымын қамтиды.

Бұл технологияларды қазақ тілінде жасау үшін біз қазақ тіліндегі ауызша пәрмендерінің деректер жиынтығын жасадық (Kazakh Speech Command Recognition – KSCD). Деректер жиынтығы GSCD-V2-ден алынған және қазақ тіліне аударылған 35 кілт сөзден тұрады. Қазақ тіліндегі кілт сөздер: «артқа», «алға», «оңға», «солға», «төмен», «жоғары», «жүр», «тоқта», «қос», «өшір», «иә», “жоқ”, “үйрен”, “орында”, “нөл”, “бір”, “екі”, “үш”, “төрт”, “бес”, “алты”, “жеті”, “сегіз”, “тоғыз” ” , “оқы”, “жаз”, “төсек”, “құс”, “мысық”, “ит”, “бақытты”, “үй”, “ағаш”, “көрнекі”, “мәссаған”. Жазбалар 16 кГц таңдау жиілігімен WAV форматында, ұзақтығы – 1 секунд. Барлығы 119 қатысушы (62 ер, 57 әйел) Telegram-бот арқылы деректер жинауға қатысты. Жиналған деректер жиынтығын модераторлар қолмен бағалап, сапасыз үлгілерді, соның ішінде толық емес немесе дұрыс емес мәлімдемелерді және дыбыссыз жазбаларды алып тастады. Нәтижесінде деректер жиынтықта 3623 жазба бар. Кез келген адам дерек жинауға атсалысып, қазақ тіліне арналған осы технологияның дамуына әлі де үлес қоса алады. Ол үшін келесі Telegram-ботқа өту керек: https://t.me/kz_commands_collector_bot . Көбірек деректермен біз сенімдірек және дәлірек жүйе жасай аламыз!

KSCD тиімділігін тексеру үшін біз ең заманауи SCR моделін – Keyword-MLP-ды – оқыттық және бағаладық. Сынақ жиынтығында модель 97% дәлдікке жетті. Біз деректер жиынтықты, бастапқы кодты және алдын ала дайындалған модельдерді GitHub репозиторийінде жария ұсынамыз. Сонымен қатар, біз толық жоба оқулықтарын жасадық. Бейнелер біздің YouTube арнамызда қолжетімді. Қосымша мәліметтер алу үшін “Speech Command Recognition: Text-to-Spe мақаламызды оқуды ұсынамыз.

Жаңалықтар

ISSAI жаңа жобаны әзірледі – Қазақ тілінде ауызша пәрмендерін тану

Жаңалықтар

ISSAI жаңа жобаны әзірледі – Қазақ тілінде ауызша пәрмендерін тану

Байланысты жаңалықтары