ISSAI - Institute of Smart Systems and Artificial Intelligence

Қазақ тілі корпусы 2

Қазақ тілі корпусы 2 (KSC2) – бұл өнеркәсіптік ауқымдағы бірінші ашық бастапқы коды бар қазақ тіліндегі сөйлеу корпусы. KSC2 корпусы бұрын енгізілген екі корпусты қамтиды: Қазақ тілінде сөйлеу корпусы және Қазақ мәтінді сөйлеуге түрлендіру 2. Сонымен қатар, телебағдарламалар, радио, сенат және подкасттар сияқты басқа жерлерден алынған қосымша деректерді қамтиды. Жалпы алғанда, KSC2 600 мың сөйлемдерден тұратын 1,2 мың сағатқа жуық жоғары сапалы транскрипцияланған деректерден тұрады.

Егер сіз ISSAI-дың Қазақ тілі корпусы 2 деректер жиынтығын коммерциялық мақсаттарда пайдалансаңыз, өнімге немесе қызметіңізге осы мәлімдемені қосыңыз:

Our product uses ISSAI Kazakh Speech Corpus 2 (https://doi.org/10.48342/m90y-aj02), which is available under a Creative Commons Attribution 4.0 International License.

Егер сіз ISSAI-дың Қазақ тілі корпусы 2 деректер жиынтығын зерттеу үшін қолдансаңыз, осы мәлімдемені қосыңыз:

Khassanov, Y., Mussakhojayeva, S., Mirzakhmetov, A., Adiyev, A., Nurpeiissov,M., Varol, H.A.: A crowdsourced open-source Kazakh speech corpus and initial speech recognition baseline. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. pp. 697–706. Association for Computational Linguistics, 2021.

Деректерін жүктеу Кодты жүктеу

This work is licensed under a Creative Commons Attribution 4.0 International license.

Жобалар

Қазақ тілі корпусы 2