Ведущий Аналитик данных ISSAI Аскат Куздеуов и Научный ассистент Артур Муратов приняли участие в 51-й ежегодной конференции IEEE Industrial Electronics Society (IECON), которая прошла с 14 по 17 октября в отеле Melia Castilla в Мадриде, Испания.
IEEE IECON — это флагманская ежегодная конференция Общества промышленной электроники IEEE, посвящённая распространению новых идей, исследований и практических разработок в таких областях, как робототехника и мехатроника, силовая электроника, кибербезопасность, возобновляемая энергетика, «умные» электросети, цифровые двойники, искусственный интеллект для промышленных процессов и Industry 5.0, среди других направлений.
Аскат Куздеуов представил работу «Real-Time Multispectral Human Pose Estimation» («Оценка позы человека в реальном времени с использованием мультиспектральных данных»), выполненную в соавторстве с Профессором Хусейном Атаканом Варолом, в секции AI and Signal & Image Processing Methodologies. Помимо этого, он выступил в качестве сопредседателя данной секции.
В работе был предложен ориентированный на данные подход к обучению моделей YOLO11-pose для задачи мультиспектральной оценки позы человека (MHPE). В результате модель YOLO11x-pose достигла AP50:95-pose показателя в 95,23% на тестовом наборе OpenThermalPose2, установив новый ориентир для этого датасета. Кроме того, она показала AP50:95-pose = 69,89% на валидационном наборе COCO, немного превзойдя исходную версию модели YOLO11x-pose.
Модели были оптимизированы и развернуты на платформе NVIDIA Jetson AGX Orin 64GB. Использование TensorRT-моделей с 16-битной плавающей точкой (FP16) позволило достичь наилучшего баланса между скоростью и точностью, что делает их пригодными для задач реального времени. Предобученные модели доступны в открытом доступе по ссылке: https://github.com/IS2AI/multispectral-motion-analysis, чтобы поддержать дальнейшие исследования в этой области.
Артур Муратов представил работу «Multilingual Speech Command Recognition with Language Identification» («Многоязычное распознавание голосовых команд с определением языка»), выполненную в соавторстве с Аскатом Куздеуовым и профессором Хюсеином Атака́ном Варолом, в той же секции.
В исследовании была предложена единая многозадачная модель, выполняющая одновременно распознавание голосовых команд (SCR) и определение языка (LID) с использованием общего энкодера и двух специализированных головных слоёв. Подход был протестирован на 15 языках: казахском, русском, английском, татарском, арабском, турецком, французском, немецком, каталанском, испанском, польском, нидерландском, персидском, киньяруандском и итальянском.
Модель продемонстрировала среднюю точность 90,73% для SCR и 90,99% для LID, превзойдя как многоязычную модель SCR без LID, так и модель, выполняющую только LID. Исходный код и предобученные модели доступны в открытом доступе по ссылке: https://github.com/IS2AI/Keyword-MLP-LangID, чтобы содействовать развитию исследований в этой сфере.
Обе работы были представлены в устной и постерной сессиях и вызвали большой интерес у научного сообщества. Кроме того, исследователи ISSAI имели возможность обменяться идеями с ведущими экспертами из разных областей, включая известного профессора Тошио Фукуду.