Жаңалықтар

cover

29 маусым 2023 ж.

ISSAI жаңа жобаны іске қосады – Kazakh Speech Commands Recognition

Сөйлеу пәрменін тану (SCR) мақсаты сөйлеудегі сөздердің белгілі бір жинағын тану және анықталған кілт сөзге негізделген жауап немесе әрекетті қамтамасыз ету болып табылады. Технология жалпы мақсаттағы сөйлеуді тануға қарағанда аз талап етілетін аппараттық құралдарды қажет ететіндіктен, SCR қуаты төмен перифериялық құрылғыларда және ендірілген жүйелерде жұмыс істей алады.

SCR дауыспен басқарылатын ақылды үй құрылғылары, жеке цифрлық көмекшілер, робототехника және өнеркәсіптік автоматтандыру сияқты қолданбаларда кеңінен қолданылады. Бұған қоса, технология құқық қорғау органдары немесе қауіпсіздік органдары ықтимал қауіптер туралы ескертетін белгілі бір триггер сөздерді анықтау үшін қауіпсіздік және бақылау жүйелерінде қолданылуы мүмкін. Көптеген SCR жүйелері үлкен Google Speech Commands Dataset (GSCD) арқасында ағылшын тіліне арналған. Бұл деректер жинағы екі нұсқада қол жетімді: V1 (30 түйінді сөз) және V2 (35 түйінді сөз), және ағылшын тіліндегі түйінді сөздер жазбаларының кең ауқымын қамтиды.

Бұл технологияларды қазақ тілінде жасау үшін біз қазақ тілінде сөйлеу командаларының деректер жинағын жасадық (ағылш.: Kazakh Speech Command Recognition – KSCD). Деректер жинағы GSCD-V2-ден алынған және қазақ тіліне аударылған 35 түйінді сөзден тұрады. Қазақ тіліндегі түйінді сөздер: «артқа», «алға», «оңға», «солға», «төмен», «жоғары», «жүр», «тоқта», «қос», «өшір», «иә», «жоқ», «үйрен», «орында», «нол», «бір», «екі», «үш», «төрт», «бес», «алты», «жеті», «сегіз», «тоғыз». ” , “оқы”, “жаз”, “төсек”, “құс”, “мысық”, “ит”, “бақытты”, “үй”, “ағаш”, “көрнекі”, “мәссаған”. Жазбалар 16 кГц таңдау жиілігімен WAV пішімінде 1 секундқа созылады. Телеграм боты арқылы деректер жинауға барлығы 119 қатысушы (62 ер, 57 әйел) қатысты. Жиналған деректер жиынын модераторлар қолмен бағалап, сапасыз үлгілерді, соның ішінде толық емес немесе дұрыс емес сөздерді және дыбыссыз немесе дыбыссыз жазбаларды алып тастады. Нәтижесінде деректер жиынында 3623 жазба бар. Кез келген адам дерек жинауға атсалысып, қазақ тіліне арналған осы технологияның дамуына әлі де үлес қоса алады. Ол үшін келесі телеграм боты арқылы өту керек: https://t.me/kz_commands_collector_bot. Көбірек деректермен біз сенімдірек және дәлірек модель жасай аламыз!

KSCD тиімділігін тексеру үшін біз ең заманауи SCR — Keyword-MLP үлгісін оқыттық және бағаладық. Сынақ жиынында модель 97% дәлдікке қол жеткізді. Біз деректер жинағын, бастапқы кодты және алдын ала дайындалған үлгілерді GitHub репозиторийінде жалпыға қолжетімді еттік. Сонымен қатар, біз жоба үшін егжей-тегжейлі оқулықтар жасадық. Бейнелерді YouTube арнамызда көруге болады. Толық ақпарат алу үшін «Speech Command Recognition: Text-to-Speech and Speech Corpus Scraping Are All You Need» мақаламызды оқуды ұсынамыз.

« of 4 »