ISSAI Datasets

Қазақ тілі корпусы (KSC)

KSC қазақ тілі мен сөзін өңдеуге арналған түрлі қосымшаларды ілгерілету үшін жасалған ең үлкен деректер жиынтығы болып саналады. Қазақ тілі корпусы 335 сағаттық жазылған аудиолардан құралған. Сонымен қатар Қазақстанның түрлі өңірлерінен қатысушылардың айтқан 1544 000 сөзінен тұрады. 

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
KazakhTTS

KazakhTTS деректер жиынтығы кәсіби спикерлер көмегімен жазылды (ер адам және әйел адам дауысы). Деректер жиынтфғф 90 сағаттан астам аудиодан тұрады.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
SpeakingFaces

Пайдаланушыларды айқындау, бет-әлпетті тану, сөз тану және адам мен компьютердің өзара әрекеттесу салаларында зерттеулерді ынталандыруға арналған кең ауқымды ашық деректер жиынтығы.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
Өзбек тілі корпусы (Uzbek Speech Corpus)

Өзбек тілі корпусы (USC) Ташкент Ақпараттық технологиялар университетінің компьютерлік жүйелер кафедрасының бейнелеу және сөйлеу зертханасы және ISSAI арасындағы ынтымақтастықтың негізінде жасалды (https://tuit.uz/en/kompyuter-tizimlari). USC құрамына 958 түрлі спикерледің дауыстары кіреді, және аудионың жалпы саны 105 сағатты құрайды.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
Орыс тілі корпусы (Russian Speech Corpus)

Openstat-CS334-бұл Russain OpenSTT-дің қайтадан жазылған 334 сағаттық таза суб-жиынтығы (https://github.com/snakers4/open_stt). Деректер жиынтығында тек кітаптар мен YouTube-тан жазбалар бар.

Лицензия: Creative Commons Attribution-NonCommercial 4.0 International License (https://creativecommons.org/licenses/by-nc/4.0/)

Code Download
Қазақша акценті бар ағылшын тілі (Kazakh-accented English)

Деректер жиынтығы Speaking Faces-тен алынған (https://doi.org/10.48333/smgd-yj77) қазақша акценті бар ағылшын тілінің жазбаларынан тұрады (~7,7 сағат). Мысалы, қазақша сөйлейтін адамдар виртуалды көмекшілерге және т.б. смарт-құрылғыларға " жарықты сөндіру", "келесі әнді қосу" және т.б. ағылшынша командаларды айтқан кезде пайдалана алатын деректер жиынтығы.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
WiFine

Wi-Fi арқылы қабылданған сигнал күшінің (RSS) жоғары деңгейдегі дәйекті деректер жиынтығы. Деректер жиынтығында Назарбаев Университетінің C4 ғимаратының 3 қабатында жиналған 290 траектория бар. Тиісті позиция координаттары бар RSS мәндері (x, y, z) шамамен 5 секунд сайын жазылады.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code
IMUWiFine

IMU және Wi-Fi арқылы қабылданған сигнал күштерінің (RSS) жоғары деңгейдегі дәйекті деректер жиынтығы. Деректер жиынтығында 14 шақырымнан асатын жиынтық қашықтықты қамтитын 120 траектория бар. Деректер жиынтығы Назарбаев Университетінің C4 ғимаратының 3 қабатында жиналды.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download