Қазақ тілі корпусы 2 (KSC2) – бұл өнеркәсіптік ауқымдағы бірінші ашық бастапқы коды бар қазақ тіліндегі сөйлеу корпусы. KSC2 корпусы бұрын енгізілген екі корпусты қамтиды: Қазақ тілінде сөйлеу корпусы және Қазақ мәтінді сөйлеуге түрлендіру 2. Сонымен қатар, телебағдарламалар, радио, сенат және подкасттар сияқты басқа жерлерден алынған қосымша деректерді қамтиды. Жалпы алғанда, KSC2 600 мың сөйлемдерден тұратын 1,2 мың сағатқа жуық жоғары сапалы транскрипцияланған деректерден тұрады.
Егер сіз ISSAI-дың Қазақ тілі корпусы 2 деректер жиынтығын коммерциялық мақсаттарда пайдалансаңыз, өнімге немесе қызметіңізге осы мәлімдемені қосыңыз:
Our product uses ISSAI Kazakh Speech Corpus 2 (https://doi.org/10.48342/m90y-aj02), which is available under a Creative Commons Attribution 4.0 International License.
Егер сіз ISSAI-дың Қазақ тілі корпусы 2 деректер жиынтығын зерттеу үшін қолдансаңыз, осы мәлімдемені қосыңыз:
Khassanov, Y., Mussakhojayeva, S., Mirzakhmetov, A., Adiyev, A., Nurpeiissov,M., Varol, H.A.: A crowdsourced open-source Kazakh speech corpus and initial speech recognition baseline. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. pp. 697–706. Association for Computational Linguistics, 2021.
Төменде осы корпусқа негізделіп жасалған демо-бағдарлама көрсетілген. Бағдарлама аудионы/сөйлеуді мәтінге айналдыра алады. Ол үшін сіз «АУДИОНЫ ЖАЗУ» батырмасын басқаннан соң ойыңыздағы сөйлемді кері санақшы нөлді көрсеткенше дауыстап оқыңыз. 10+ секундтан кейін аудиоңыздың мәтіні дисплейде («АУДИОНЫ ЖАЗУ» батырманың үстінде) көрінеді.
Кейбір браузерлерде аудио жазу технологиясы жоқ болғаннан соң, біздің бағдарламамыз істемейді. Сол себебті сіздер заманауи браузермен және ноутбук немесе үстелдік компьютерді қолдануларыңызды сұраймыз.