ISSAI зерттеушілері беделді IEEE Transactions on Biometrics, Behavior, and Identity Science журналында жаңашыл мақала жариялады. Мақаланың авторлары, деректер сарапшысы Мадина Әбдірахманова, зерттеуші Тимур Унаспеков және ISSAI директоры Атакан Варол сәйкестендіру жүйелерінің жұмысын жақсарту үшін дыбыстық, визуалды және жылулық әдістерді біріктіруді қалай пайдалануға болатынын қарастырады.
Авторлар SpeakingFaces деректер жинағындағы нақты аудио-визуалды деректерді VoxCeleb деректер жинағындағы синтетикалық термиялық деректермен біріктіру арқылы оқыту деректерін кеңейту үшін доменді тасымалдау әдістерін пайдаланды. Топ біріктірілген деректер бойынша оқытылған унимодальды аудио, унимодальді визуалды, бимодальды және тримодальдық жүйелердің бағалау біріктіруін пайдалану SpeakingFaces және VoxCeleb деректер жиындарында жақсы нәтижелерге қол жеткізгенін анықтады. Тәсіл сондай-ақ қиын жағдайларда, соның ішінде төмен жарық пен жоғары шу деңгейінде айтарлықтай беріктікті көрсетті.
Басылым терең оқыту үлгілерінің өнімділігін жақсарту үшін генеративті әдістермен жасалған синтетикалық деректерді пайдалану бойынша одан әрі зерттеулерге үлес қосады деп күтілуде. Мультимодальдық сәйкестікті растау саласындағы зерттеулерді қолдау және жеңілдету үшін ISSAI тобы GitHub репозиторийіне еркін қол жеткізу мүмкіндігімен өзінің кодын, алдын ала дайындалған үлгілерін және өңделген деректер жинағын жасады.