Новости

Учёные «Сбера» создали серию лёгких нейросетевых моделей для распознавания сложных человеческих эмоций

Специалисты Центра практического искусственного интеллекта «Сбера» сообщили о значительном прогрессе в области анализа эмоций на фото и видео. Новые модели искусственного интеллекта позволяют точнее определять даже сложные и смешанные эмоциональные состояния человека в реальных условиях. Результаты исследований были представлены на конференции ECCV 2024 по компьютерному зрению.

В первой работе учёные сосредоточились на распознавании составных эмоций — когда человек одновременно испытывает несколько чувств, например «радостное удивление» или «печально испуг». Разработанные алгоритмы успешно улавливают такие эмоциональные комбинации.

Для этого использовались легковесные нейросети, в частности модель MT-EmotiMobileFaceNet, которая извлекает эмоциональные признаки с лица. Далее применяются методы постобработки, включая усреднение и гауссовские фильтры, что заметно повышает точность. Этот подход позволил улучшить F1-метрику на 4,5 процентных пункта и занять второе место в международном соревновании Compound Expression Recognition на конференции ECCV.

Главное преимущество метода — способность точно распознавать сложные эмоции без необходимости дообучения на новых наборах данных, что ранее было значительным ограничением для практического применения подобных систем.

Во второй работе — «Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей» (Multi-Task Affective Behaviour Analysis based on MT-EmotiNet Models) — исследователи создали компактные модели, способные одновременно решать несколько задач. Они определяют выражение лица, эмоциональный знак (valence), уровень возбуждения (arousal) и двенадцать кодов мимических движений по классификации Пола Экмана.

Были разработаны архитектуры MT-EmotiDDAMFNet и MT-EmotiEffNet. Их комбинирование улучшило качество базового решения конкурса ABAW-7: точность распознавания выражений выросла на 7 процентных пунктов, а оценка знака и интенсивности эмоций — в 1,25 раза. Итоговая метрика для всех задач увеличилась в 4,5 раза, что принесло команде серебряную медаль соревнования Multi-Task Learning Challenge.

Разработанные технологии работают даже на мобильных устройствах — при этом видео не передаётся в облако, что снижает нагрузку на вычислительные ресурсы и повышает защиту персональных данных. Все модели и исходный код доступны в открытом доступе в библиотеке EmotiEffLib.