LAION и Intel выпустили инструменты для ИИ, способные точно определять интенсивность 40 эмоций

2025-06-21 14:00

В рамках нового проекта с открытым исходным кодом, компании LAION и Intel разработали технологический пакет Empathic Insight, предназначенный для повышения эмоциональной чувствительности систем искусственного интеллекта. Этот инструмент помогает ИИ анализировать выражения лиц и аудиозаписи, оценивая эмоциональное состояние человека по 40 различным категориям.

Модели оценивают эмоции на лицах по шкале от 0 до 7, а в голосе — определяют, присутствует ли эмоция и насколько она выражена (слабо или сильно).

Основа проекта — расширенная модель EmoNet

В центре системы находится модель EmoNet, созданная на основе таксономии, разработанной по мотивам известного психологического «Справочника по эмоциям». В отличие от традиционных подходов, авторы добавили к базовым эмоциям такие состояния, как концентрация, замешательство, усталость, боль, стыд, гордость и другие. Подход основывается на идее, что эмоции формируются в мозге как результат интерпретации разных сигналов, а не распознаются как фиксированные реакции. Поэтому модели используют вероятностный подход, а не жёсткую классификацию.

Обучение на синтетических данных

Обучение велось на полностью синтетических данных — 203 тысячи изображений лиц и 4692 аудиофайла. Аудиоматериал был взят из набора Laion's Got Talent, содержащего более 5000 часов синтетической речи на английском, немецком, испанском и французском языках, созданной с помощью OpenAI GPT-4o.

Лица генерировались с помощью таких систем, как Midjourney и Flux, с последующей программной настройкой под различные возрастные, половые и этнические группы. Это не только решило вопрос конфиденциальности, но и позволило учесть разнообразие в обучающих данных. Все записи прошли ручную экспертную проверку — в финальный датасет вошли только те, где мнения трёх независимых специалистов совпадали.

Превосходство над конкурентами

Согласно LAION, Empathic Insight демонстрирует лучшие результаты по сравнению с такими системами, как Gemini 2.5 Pro и Hume AI. В тестах EmoNet Face HQ уровень совпадения оценок модели с мнением профессиональных психологов достигал 40%, в то время как стандартные визуальные языковые модели (VLM) показывали лишь 25–30%.

Также отличные результаты показала модель Empathic Insight Voice, которая успешно распознала все 40 категорий эмоций в тесте EmoNet Voice Benchmark. Команда тщательно подбирала размеры моделей и методы обработки звука, чтобы добиться максимальной точности.

Расширенные возможности благодаря BUD-E Whisper

Кроме анализа эмоций, LAION представила BUD-E Whisper — улучшенную версию модели OpenAI Whisper. Она не только транскрибирует речь, но и добавляет:

эмоциональные характеристики высказываний,
распознаёт смех, вздохи и другие звуковые маркеры,
определяет пол и возраст говорящего.

Доступность и лицензии

Все модели и наборы данных доступны бесплатно: модели — по лицензии Creative Commons, код — по Apache 2.0. Скачать их можно на платформе Hugging Face, где представлены версии Small и Large — для различных вычислительных ресурсов и задач.