Проекты

Скачать набор данных “Говорящие Лица” (SpeakingFaces)

Набор данных SpeakingFaces доступен через сервер Института умных систем и искусственного интеллекта (ISSAI) по международной лицензии Creative Commons Attribution 4.0. ISSAI является членом DataCite. Цифровой идентификатор объекта (DOI) был присвоен набору данных SpeakingFaces репозиторием ISSAI (https://doi.org/10.48333/smgd-yj77). Данный исследовательский проект был одобрен Комитетом по этике институциональных исследований Назарбаев Университета. Все участники подписали формы информированного согласия на участие в исследовании и согласились с публичным обменом данными.

Данные были собраны у 142 людей разного происхождения. Каждый человек участвовал в двух испытаниях, которые проводились в два отдельных дня. В ходе одного испытания было проведено два типа сессий. На первой сессии участники были молчаливы и неподвижны, а оператор фиксировал визуальные и тепловые видеопотоки через процессию из девяти ракурсов сбора. Вторая сессия состояла из чтения участниками серии команд, представленных поочередно на видеоэкранах, в то же время визуальные, тепловые и звуковые данные собирались с тех же девяти позиций камеры. Команды были получены из Thingpedia, открытой и краудсорсинговой базы знаний для виртуальных помощников, а также общедоступных команд для Siri. Более подробную информацию о процедуре сбора и предварительной обработки данных можно найти в нашей статье.

Если вы заинтересованы в получении доступа к нашим данным, пожалуйста, заполните эту форму. Вам будут предоставлены учетные данные и инструкции по подключению к нашему серверу. Если вы являетесь рецензентом соответствующей статьи, пожалуйста, используйте полномочия, указанные в сопроводительном письме.

Публичный репозиторий состоит из аннотированных данных (метаданных), необработанных данных и чистых данных. Давайте сначала введем обозначения, относящиеся к названиям директориев и файлов на рисунках ниже:

Файловая структура репозитория SpeakingFaces представлена ниже. Имена файлов имеют суффикс subID и trialID, в результате чего общее количество файлов достигает указанного максимума (142 или 284).

Аннотированные данные хранятся в каталоге метаданных, который состоит из поддиректория команд и subjects.csv. Первый содержит информацию об удостоверении личности, разделении (тренировка/действительный/тест), поле, этнической принадлежности, возрасте и аксессуарах (шляпа, очки и т. Д.) в обоих испытаниях для каждого участника. Последний состоит из sub_subID_trial_trialID.CSV-файл, состоящий из записей по каждой команде, произнесенной участником subID в испытании trialID. Всего 284 файла, по два файла на каждого из 142 участников. Запись включает в себя имя команды, идентификатор команды, идентификатор положения камеры, в которой было записано высказывание, транскрипцию произнесенной команды и информацию об артефактах, обнаруженных в записи.

Существует четыре категории артефактов, соответствующих четырем потокам данных: тепловые, визуальные, звуковые и текстовые. Для каждого потока в таблице ниже перечислены обнаруженные артефакты и соответствующее числовое значение, записанное в метаданных. Таким образом, высказывание, “чистое” от любого шума в данных, будет иметь 0 во всех четырех категориях. В зависимости от применения набора данных пользователи могут решить, какие из артефактов являются приемлемыми, и выбрать данные в соответствии со своими предпочтениями.

Необработанные данные о “не говорящем” сессии можно найти в video_only_raw, который содержит сжатую версию необработанных видеофайлов из обоих испытаний для данного субъекта. Необработанные данные для другой сессии можно найти в файле video_audio_raw.

Чистые данные соответствуют результату всего процесса предварительной обработки данных. Директорий img_only содержит сжатую версию тепловых, визуальных и выровненных кадров визуальных изображений из первой сессии. В дополнение к кадрам изображений папка img_audio содержит аудиодорожки для каждого произнесенного высказывания во время вторых сеансов.

Папки video_only_rawvideo_audio_rawimg_onlyimg_audio содержат по 142 файла. Каждый файл представляет собой zip-архив, содержащий данные по одному из участников. Сначала данные должны быть извлечены, полученная файловая структура проиллюстрирована ниже:

Вы можете скачать скрипты и модели из нашего директория github.

Пожалуйста, процитируйте как:

M. Abdrakhmanova, A. Kuzdeuov, S. Jarju, Y. Khassanov, M. Lewis and H. A. Varol. “SpeakingFaces: A Large-Scale Multimodal Dataset of Voice Commands with Visual and Thermal Video Streams”. arXiv preprint arXiv:2012.02961 (2020).

M. Abdrakhmanova, A. Kuzdeuov, S. Jarju, Y. Khassanov, M. Lewis, H. A. Varol, “ISSAI SpeakingFaces Dataset.” Institute of Smart Systems and Artificial Intelligence, 2020, doi: 10.48333/SMGD-YJ77.