Учёные Центра практического искусственного интеллекта Сбера разработали новые модели искусственного интеллекта, способные с высокой точностью определять составные эмоции человека по фото и видео, сообщает comnews.ru. Технология позволяет распознавать не только базовые чувства вроде радости или страха, но и их сложные комбинации — например, «удивлённую радость» или «испуганную грусть».
Новый подход к распознаванию составных эмоций
В исследовании «Распознавание составных эмоций лиц на видео с помощью сглаживания предсказаний эффективных многозадачных нейронных сетей» предложен метод, значительно повышающий точность анализа эмоциональных состояний в реальных условиях. Авторы использовали лёгкие нейросетевые архитектуры, такие как MT-EmotiMobileFaceNet, и дополнили их постобработкой — сглаживанием предсказаний с помощью усреднения или гауссовых фильтров.
Этот подход позволил улучшить F1-меру классификации составных эмоций на 4,5 процентных пункта без необходимости дообучения модели на новых данных. Работа заняла второе место на международном конкурсе Compound Expression Recognition в рамках ABAW-7 на конференции ECCV.
Лёгкие модели для многозадачного анализа эмоций
Второе исследование — «Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей» — направлено на создание компактных ИИ-систем, способных одновременно решать несколько задач: распознавать выражение лица, оценивать валентность (положительный/отрицательный окрас эмоции) и возбуждение (интенсивность), а также определять 12 кодов лицевых движений по системе Пола Экмана.
Разработанные модели MT-EmotiDDAMFNet и MT-EmotiEffNet работают прямо на мобильных устройствах, не передавая данные в облако. Это снижает нагрузку на вычислительные ресурсы и повышает конфиденциальность персональной информации. Объединение признаков от двух лучших архитектур увеличило суммарную метрику качества в 4,5 раза по сравнению с базовым решением конкурса ABAW-7. За этот результат команда Сбера получила серебряную медаль в Multi-Task Learning Challenge.
Открытый код и практическое применение
Все модели и исходный код опубликованы в открытой библиотеке EmotiEffLib, что делает разработки доступными для научного сообщества и способствует дальнейшему развитию направления.
Практическое применение технологий многообразно. В маркетинге и UX-исследованиях компании смогут точнее оценивать эмоциональную реакцию пользователей на контент. Производители смартфонов и умных устройств — внедрять более адаптивные интерфейсы. Автопроизводители — улучшать системы мониторинга состояния водителя. В сфере здравоохранения возможна разработка инструментов для ранней диагностики эмоциональных расстройств.
Предложенные решения доказывают: компактные модели с грамотной постобработкой могут конкурировать с массивными нейросетевыми ансамблями, обеспечивая при этом высокую точность, доступность и безопасность.
Читайте также: ЦИПР заключила международное соглашение с AI Global Association на GITEX GLOBAL-2025.
Благодарим за оставленный Вами отзыв! Мы стараемся становиться лучше!

© freepick.com


