Projects

Өзбек тілі корпусы және Өзбек тілі мен сөзін автоматты түрде тану жүйесі

Өзбек тілі корпусы (USC) Ташкент Ақпараттық технологиялар университетінің компьютерлік жүйелер кафедрасының бейнелеу және сөйлеу зертханасы және ISSAI арасындағы ынтымақтастықтың негізінде жасалды (https://tuit.uz/en/kompyuter-tizimlari). USC құрамына 958 түрлі спикерледің дауыстары кіреді, және аудионың жалпы саны 105 сағатты құрайды. Жоғары сапаны қамтамасыз ету үшін USC Өзбек азаматтарымен сыналды. USC негізінен сөзді автоматты түрде тануға арналған, бірақ оны сөз синтезі және сөз аудармасы сияқты сөйлеуге байланысты басқа мәселелерді шешу үшін де қолдануға болады. Біздің білуімізше, Creative Commons Attribution 4.0 халықаралық лицензиясына сәйкес академиялық және коммерциялық мақсатта пайдалану үшін USC алғашқы рет жария өзбек тілі корпусы болып табылады. Біз USC жалпы сөз зерттеушілер қауымдастығы үшін құнды ресурс болады және Өзбекстандағы зерттеулері үшін негізгі мәліметтер жиынтығы болады деп үміттенеміз.

Өзбек тілінде сөз туралы мәліметтер жинау жобасы жалғасуда, егер сіз өз үлесіңізді қосқыңыз келсе, келесі сілтемеге кіріңіз: https://usc.spai.uz/en/

Егер сіз корпусты коммерциялық мақсатта қолдансаңыз, осы сөйлемді өніміңізге немесе қызметіңізге қосыңыз:

Our product uses ISSAI and TUIT Uzbek Speech Corpus (https://doi.org/10.48342/drss-8q87), which is available under a Creative Commons Attribution 4.0 International License.

Егер сіз корпусты зерттеу үшін қолдансаңыз, осы сөйлемді көрсетіңіз:

Musaev, M., Mussakhojayeva, S., Khujayorov, I., Khassanov, Y., Ochilov, M., & Varol, H. A. (2020). USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. arXiv preprint arXiv:2107.14419.

Төменде өзбек тілі корпусының көмегімен жасалған сөзді автоматты түрде тану жүйесінің демо-нұсқасы берілген. “Жазу” батырманы басып, кері санақ нөлге жеткенше бірден сөйлеңіз. Танылған нәтиже 10 секундтан кейін “Жазу” батырманың үстінде пайда болады. Кейбір браузерлер дыбыс жазу функцияларын қолдамайтынын ескеріңіз:

Нұсқаулық:

  • “Жазу” батырманы басып, кері санақ нөлге жеткенше бірден сөйлеңіз (Өзбек тілінде)
  • Танылған нәтиже 10 секундтан кейін “Жазу” батырманың үстінде пайда болады

Браузердің кейбір нұсқалары дыбыс жазу технологиясын қолдамайды. Егер бұл сіздің жағдайыңыз болса, жұмыс үстеліндегі құрылғыларда заманауи шолғыштарды қолдануды қарастырыңыз.

GitHub icon
Powered by GitHub

The USC dataset specifications.

Category Train Valid Test Total
1 Duration (hours) 96.4 4.0 4.5 104.9
2 # Utterances 100,767 3,783 3,837 108,387
3 # Words 569.0k 22.5k 27.1k 618.6k
4 # Unique Words 59.5k 8.4k 10.5k 63.1k
5 # Speakers 879 41 38 958