Нейроморфное зрение – это отрасль компьютерного зрения, которая работает с использованием биоинспирированных датчиков, отличных от традиционных камер. Датчики этого типа регистрируют только измененную интенсивность пикселей с точностью до микросекунд. Высокое временное разрешение позволяет фиксировать события, которые происходят в диапазоне миллионов временных шагов в секунду, таким образом получая очень подробную информацию, недоступную с помощью датчиков RGB на основе кадров. Мероприятия в данном контексте – это запись о изменяемого пикселя в виде четырех-мерных кортежей (𝑥,𝑦,𝑝,𝑡) что документы интенсивностью изменения в положение (𝑥,𝑦), время T и полярность 𝑝∈(0,1).
Исследователи ISSAI Улжан Бисаринова, Томирис Рахимжанова, Даулет Кенжебалин и генеральный директор Института Атакан Варол опубликовали статью, в которой представлен первый большой и разнообразный набор данных о лицах событий под названием Faces in Event Streams (FES), сопровождаемый 12 моделями, которые обнаруживают лица и лицевые ориентиры в потоках событий с оценкой mAP50 выше 90%. Набор данных содержит 689 минут записанных потоков событий, а также 1.6 млн. аннотированных лиц. В статье исследователи также сравнивают производительность модели, основанной на фреймах, и моделей, основанных на событиях, а также методы накопления для моделей событий, основанных на фиксированном количестве событий и фиксированном времени. Эксперименты показывают, что модели, основанные на событиях, превосходят модель, основанную на кадрах, а методы накопления, основанные на времени, лучше подходят для обнаружения лиц в наборе данных FES.
Результаты исследования могут быть дополнительно расширены в качестве базового детектора лиц для распознавания лиц и эмоций в задачах потоков событий, а также для реконструкции интенсивности. Набор данных FES и предварительно обученные модели общедоступны для дальнейших исследований на GitHub.