ISSAI Datasets

A Central Asian Food Dataset for Personalized Dietary Interventions

First Central Asian Food Dataset, containing 16,499 images across 42 food items. The dataset is unbalanced, the number of images per class varies from 99 to 922. The dataset is websrated and contains extracted frames from the videos.

LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
The Kazakh Named Entity Recognition

The Kazakh Named Entity Recognition Dataset (KazNERD) contains 112,702 sentences, extracted from the television news text, and 136,333 annotations for 25 entity classes. All sentences in the dataset were manually annotated by two native Kazakh-speaking linguists, supervised by an ISSAI researcher. The IOB2 scheme was used for annotation. The dataset is in the CoNLL 2002 format.

LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code
Turkish Speech Corpus

The corpus contains 218.2 hours of transcribed speech with 186,171 utterances and is the largest publicly available Turkish dataset of its kind. The datasets and codes used to train the models are available for download at TurkicASR.

LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/ )

Code Download
Қазақ тілі корпусы (KSC)

KSC қазақ тілі мен сөзін өңдеуге арналған түрлі қосымшаларды ілгерілету үшін жасалған ең үлкен деректер жиынтығы болып саналады. Қазақ тілі корпусы 335 сағаттық жазылған аудиолардан құралған. Сонымен қатар Қазақстанның түрлі өңірлерінен қатысушылардың айтқан 1544 000 сөзінен тұрады. 

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
KazakhTTS

An expanded version of the previously released Kazakh text-to-speech (KazakhTTS) synthesis corpus. In the new KazakhTTS2 corpus, the overall size has increased from 93 hours to 271 hours, the number of speakers has risen from two to five (three females and two males), and the topic coverage has been diversified with the help of new sources, including a book and Wikipedia articles.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
SpeakingFaces

Пайдаланушыларды айқындау, бет-әлпетті тану, сөз тану және адам мен компьютердің өзара әрекеттесу салаларында зерттеулерді ынталандыруға арналған кең ауқымды ашық деректер жиынтығы.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
Өзбек тілі корпусы (Uzbek Speech Corpus)

Өзбек тілі корпусы (USC) Ташкент Ақпараттық технологиялар университетінің компьютерлік жүйелер кафедрасының бейнелеу және сөйлеу зертханасы және ISSAI арасындағы ынтымақтастықтың негізінде жасалды (https://tuit.uz/en/kompyuter-tizimlari). USC құрамына 958 түрлі спикерледің дауыстары кіреді, және аудионың жалпы саны 105 сағатты құрайды.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
Орыс тілі корпусы (Russian Speech Corpus)

Openstat-CS334-бұл Russain OpenSTT-дің қайтадан жазылған 334 сағаттық таза суб-жиынтығы (https://github.com/snakers4/open_stt). Деректер жиынтығында тек кітаптар мен YouTube-тан жазбалар бар.

Лицензия: Creative Commons Attribution-NonCommercial 4.0 International License (https://creativecommons.org/licenses/by-nc/4.0/)

Code Download
Қазақша акценті бар ағылшын тілі (Kazakh-accented English)

Деректер жиынтығы Speaking Faces-тен алынған (https://doi.org/10.48333/smgd-yj77) қазақша акценті бар ағылшын тілінің жазбаларынан тұрады (~7,7 сағат). Мысалы, қазақша сөйлейтін адамдар виртуалды көмекшілерге және т.б. смарт-құрылғыларға " жарықты сөндіру", "келесі әнді қосу" және т.б. ағылшынша командаларды айтқан кезде пайдалана алатын деректер жиынтығы.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
WiFine

Wi-Fi арқылы қабылданған сигнал күшінің (RSS) жоғары деңгейдегі дәйекті деректер жиынтығы. Деректер жиынтығында Назарбаев Университетінің C4 ғимаратының 3 қабатында жиналған 290 траектория бар. Тиісті позиция координаттары бар RSS мәндері (x, y, z) шамамен 5 секунд сайын жазылады.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code
IMUWiFine

IMU және Wi-Fi арқылы қабылданған сигнал күштерінің (RSS) жоғары деңгейдегі дәйекті деректер жиынтығы. Деректер жиынтығында 14 шақырымнан асатын жиынтық қашықтықты қамтитын 120 траектория бар. Деректер жиынтығы Назарбаев Университетінің C4 ғимаратының 3 қабатында жиналды.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download