First Central Asian Food Dataset, containing 16,499 images across 42 food items. The dataset is unbalanced, the number of images per class varies from 99 to 922. The dataset is websrated and contains extracted frames from the videos.
LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
The Kazakh Named Entity Recognition Dataset (KazNERD) contains 112,702 sentences, extracted from the television news text, and 136,333 annotations for 25 entity classes. All sentences in the dataset were manually annotated by two native Kazakh-speaking linguists, supervised by an ISSAI researcher. The IOB2 scheme was used for annotation. The dataset is in the CoNLL 2002 format.
LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
The corpus contains 218.2 hours of transcribed speech with 186,171 utterances and is the largest publicly available Turkish dataset of its kind. The datasets and codes used to train the models are available for download at TurkicASR.
LICENCE: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/ )
KSC является крупнейшим общедоступным набором данных, разработанным для продвижения различных приложений для обработки казахской речи и языка. Он содержит около 335 часов аудио, записанного вручную, содержащего более 154 000 высказываний, произнесенных участниками из разных регионов Казахстана.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
An expanded version of the previously released Kazakh text-to-speech (KazakhTTS) synthesis corpus. In the new KazakhTTS2 corpus, the overall size has increased from 93 hours to 271 hours, the number of speakers has risen from two to five (three females and two males), and the topic coverage has been diversified with the help of new sources, including a book and Wikipedia articles.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
Крупномасштабный общедоступный набор данных, предназначенный для развития исследований в областях аутентификации пользователей, распознавания лиц, распознавания речи и взаимодействия человека и компьютера.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
Корпус узбекской речи - это корпус речи с открытым исходным кодом, разработанный в сотрудничестве между ISSAI и Лабораторией обработки изображений и речи кафедры компьютерных систем Ташкентского университета информационных технологий (https://tuit.uz/en/kompyuter-tizimlari). Корпус был записан 958 разными спикерами, и состоит, в общей сложности, из 105 часов записанных аудиозаписей.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
Openstat-CS334 - это вручную переписанное 334-часовое чистое суб-набор OpenSTT-CS334 (https://github.com/snakers4/open_stt). Набор данных содержит записи только из книг и YouTube.
Лицензия: Creative Commons Attribution-NonCommercial 4.0 International License (https://creativecommons.org/licenses/by-nc/4.0/)
Набор данных состоит из записей английского языка с казахским акцентом (~7,7 часа), извлеченных из Speaking Faces (https://doi.org/10.48333/smgd-yj77 ). Например, носители казахского языка, произносящие английские словесные команды такие как ‘выключить свет", ‘включить следующую песню" и тд, отдаваемые виртуальным помощникам и другим смарт-устройствам.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
Последовательный набор данных более высокого уровня сил сигналов (RSS), принятых через Wi-Fi. Набор данных содержит 290 траекторий, собранных на 3 этажах здания C4 Назарбаев Университета. Значения RSS с соответствующими координатами положения (x, y, z) записываются примерно каждые 5 секунд.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)
Последовательный набор данных более высокого уровня сил сигналов (RSS), принятых через IMU и Wi-Fi. Набор данных содержит 120 траекторий, охватывающих совокупное расстояние более 14 километров. Набор данных был собран на 3 этажах здания C4 Назарбаев Университета.
Лицензия: Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)