ISSAI Datasets

A Central Asian Food Dataset for Personalized Dietary Interventions

First Central Asian Food Dataset, containing 16,499 images across 42 food items. The dataset is unbalanced, the number of images per class varies from 99 to 922. The dataset is websrated and contains extracted frames from the videos.

LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
The Kazakh Named Entity Recognition

The Kazakh Named Entity Recognition Dataset (KazNERD) contains 112,702 sentences, extracted from the television news text, and 136,333 annotations for 25 entity classes. All sentences in the dataset were manually annotated by two native Kazakh-speaking linguists, supervised by an ISSAI researcher. The IOB2 scheme was used for annotation. The dataset is in the CoNLL 2002 format.

LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code
Turkish Speech Corpus

The corpus contains 218.2 hours of transcribed speech with 186,171 utterances and is the largest publicly available Turkish dataset of its kind. The datasets and codes used to train the models are available for download at TurkicASR.

LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/ )

Code Download
Корпус казахской речи (KSC)

KSC является крупнейшим общедоступным набором данных, разработанным для продвижения различных приложений для обработки казахской речи и языка. Он содержит около 335 часов аудио, записанного вручную, содержащего более 154 000 высказываний, произнесенных участниками из разных регионов Казахстана.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
KazakhTTS

An expanded version of the previously released Kazakh text-to-speech (KazakhTTS) synthesis corpus. In the new KazakhTTS2 corpus, the overall size has increased from 93 hours to 271 hours, the number of speakers has risen from two to five (three females and two males), and the topic coverage has been diversified with the help of new sources, including a book and Wikipedia articles.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
SpeakingFaces

Крупномасштабный общедоступный набор данных, предназначенный для развития исследований в областях аутентификации пользователей, распознавания лиц, распознавания речи и взаимодействия человека и компьютера.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
Корпус узбекской речи (Uzbek Speech Corpus)

Корпус узбекской речи - это корпус речи с открытым исходным кодом, разработанный в сотрудничестве между ISSAI и Лабораторией обработки изображений и речи кафедры компьютерных систем Ташкентского университета информационных технологий (https://tuit.uz/en/kompyuter-tizimlari). Корпус был записан 958 разными спикерами, и состоит, в общей сложности, из 105 часов записанных аудиозаписей.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
Корпус русской речи (Russian Speech Corpus)

Openstat-CS334 - это вручную переписанное 334-часовое чистое суб-набор OpenSTT-CS334 (https://github.com/snakers4/open_stt). Набор данных содержит записи только из книг и YouTube.

Лицензия: Creative Commons Attribution-NonCommercial 4.0 International License (https://creativecommons.org/licenses/by-nc/4.0/)

Code Download
Английский язык с казахским акцентом (Kazakh-accented English)

Набор данных состоит из записей английского языка с казахским акцентом (~7,7 часа), извлеченных из Speaking Faces (https://doi.org/10.48333/smgd-yj77 ). Например, носители казахского языка, произносящие английские словесные команды такие как ‘выключить свет", ‘включить следующую песню" и тд, отдаваемые виртуальным помощникам и другим смарт-устройствам.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download
WiFine

Последовательный набор данных более высокого уровня сил сигналов (RSS), принятых через Wi-Fi. Набор данных содержит 290 траекторий, собранных на 3 этажах здания C4 Назарбаев Университета. Значения RSS с соответствующими координатами положения (x, y, z) записываются примерно каждые 5 секунд.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code
IMUWiFine

Последовательный набор данных более высокого уровня сил сигналов (RSS), принятых через IMU и Wi-Fi. Набор данных содержит 120 траекторий, охватывающих совокупное расстояние более 14 километров. Набор данных был собран на 3 этажах здания C4 Назарбаев Университета.

Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)

Code Download