SpeakingFaces деректер жинағы Creative Commons Attribution 4.0 халықаралық лицензиясы бойынша Ақылды жүйелер мен жасанды интеллект институтының (ISSAI) сервері арқылы қолжетімді. ISSAI -DataCite мүшесі. Объектінің цифрлық сәйкестендіргіші (DOI) ISSAI репозиторийімен SpeakingFaces деректер жиынына берілді (https://doi.org/10.48333/smgd-yj77). Бұл зерттеу жобасын Назарбаев Университетінің Институционалдық зерттеулер этикасы жөніндегі комитеті мақұлдады. Барлық қатысушылар зерттеуге қатысуға ақпараттандырылған келісім нысандарына қол қойған, және жария деректермен алмасуға келіскен.
Деректер 142 түрлі адамнан жиналды. Әр адам екі бөлек күнде өткізілген екі сынаққа қатысты. Бір сынақ барысында сессиялардың екі түрі өткізілді. Бірінші сессияда қатысушылар үнсіз және қозғалыссыз отырды, ал оператор тоғыз жинау бұрышынан визуалды және жылу бейне ағындарын тіркеді. Екінші сессия бейне экрандарда кезек-кезек ұсынылған бірқатар командаларды оқудан тұрды, сонымен бірге камераның тоғыз позициясынан визуалды, жылу және дыбыстық мәліметтер жиналды. Командалар Thingpedia-дан, виртуалды көмекшілерге арналған ашық және краудсорсингтік білім базасынан, сондай-ақ Siri үшін көпшілікке арналған командалардан алынды. Деректерді жинау және алдын-ала өңдеу процедурасы туралы қосымша ақпаратты біздің мақалада табуға болады.
Егер сіз біздің деректерімізге қол жеткізгіңіз келсе, осы форманы толтырыңыз. Сізге біздің серверге қосылу туралы тіркелгі деректері мен нұсқаулар беріледі. Егер сіз тиісті мақаланың шолушысы болсаңыз, мұқабадағы хатта көрсетілген өкілеттіктерді пайдаланыңыз.
Қоғамдық репозиторий аннотацияланған мәліметтерден (метадеректерден), өңделмеген деректерден және таза деректерден тұрады. Алдымен төмендегі суреттердегі каталогтар мен файл атауларына қатысты белгілерді енгізейік:
SpeakingFaces репозиторийінің файлдық құрылымы төменде келтірілген. Файл атауларында subID және trialID жұрнақтары бар, нәтижесінде файлдардың жалпы саны көрсетілген максимумға жетеді (142 немесе 284).
Аннотацияланған деректер метадеректер каталогында сақталады, ол командалар мен subjects.csv. ақпараттан тұрады. Біріншісінде жеке куәлік, бөлу (жаттығу/жарамды/тест), жынысы, ұлты, жасы және аксессуарлары (шляпалар, көзілдіріктер және т.б.) туралы ақпарат бар. Соңғысы sub_subID_trial_trialID.CSV-даң тұрады. Ол trialID сынағында subID қатысушысы айтқан әр пәрмен бойынша жазбалардан тұратын файл. Барлығы 284 файл, әр 142 қатысушыға екі файлдаң тұрады. Жазбада команданың аты, команда идентификаторы, мәлімдеме жазылған камера позициясының идентификаторы, айтылған команданың транскрипциясы және жазбада табылған артефактілер туралы ақпарат бар.
Төрт деректер ағынына сәйкес келетін артефактілердің төрт категориясы бар: жылу, визуалды, дыбыстық және мәтіндік. Әрбір ағын үшін төмендегі кестеде табылған артефактілер және метадеректерде жазылған тиісті цифрлық мән көрсетілген. Осылайша, деректердегі кез-келген шуылдан «таза» деген сөз барлық төрт санатта 0 болады. Деректер жиынтығының қолданылуына байланысты пайдаланушылар артефактілердің қайсысы қолайлы екенін шешіп, олардың қалауына сәйкес деректерді таңдай алады.
«Сөйлемейтін» сессия туралы өңделмеген деректерді video_only_raw-да табуға болады, онда берілген тақырып үшін екі сынақтың да өңделмеген бейне файлдарының қысқа нұсқасы бар. Басқа сессияға арналған өңделмеген деректерді video_audio_raw файлынан табуға болады.
Таза деректер барлық алдын-ала өңдеу процесінің нәтижесіне сәйкес келеді. Img_only директорийінда бірінші сессиядан алынған жылу, визуалды және тураланған визуалды кадрлардың қысқа нұсқасы бар. Кескін кадрларынан басқа, img_audio қалтасында екінші сессиялар кезінде айтылған әр сөз үшін аудио тректер бар.
Video_only_raw, video_audio_raw, img_only, img_audio қалталарында 142 файл бар. Әрбір файл-қатысушылардың біреуі туралы мәліметтерді қамтитын zip-мұрағатынан тұрады. Алдымен деректерді алу керек, нәтижесінде алынған файл құрылымы төменде көрсетілген:
Сценарийлер мен модельдерді біздің GitHub директорийінен жүктей аласыз.
Өтінеміз, келесідей дәйексөз келтіріңіз:
M. Abdrakhmanova, A. Kuzdeuov, S. Jarju, Y. Khassanov, M. Lewis and H. A. Varol. “SpeakingFaces: A Large-Scale Multimodal Dataset of Voice Commands with Visual and Thermal Video Streams”. arXiv preprint arXiv:2012.02961 (2020).
M. Abdrakhmanova, A. Kuzdeuov, S. Jarju, Y. Khassanov, M. Lewis, H. A. Varol, “ISSAI SpeakingFaces Dataset.” Institute of Smart Systems and Artificial Intelligence, 2020, doi: 10.48333/SMGD-YJ77.