Эксперты обсудили актуальные методы детекции человеческих действий на видео

Корделия Шмидт, директор по исследованиям исследовательского института INRIA (Франция), рассказала о последних разработках своего научного коллектива в области использования сверхточных нейронных сетей для распознавания действий людей на видео. Встреча прошла 9 июня 2017 года на площадке саммита «МАШИНЫ МОГУТ ВИДЕТЬ», организованного институтом STRELKA.
По словам исследовательницы, её команда отказалась от детектирования с захватом отдельных пикселей в пользу моделей объектов и их движений. К настоящему моменту институт усовершенствовал несколько методов обнаружения объектов, в основе которых технологии R-CNN, SSD, RGB. Благодаря усилиям INRIA достоверная детекция выполнима на 6-10 кадрах. «Пьет человек или чистит зубы?», «Встает или садится?», «Закончил ли он действие?», на эти вопросы машина уже может ответить самостоятельно.
Однако, разработчики технологий по-прежнему сталкиваются с рядом проблем, отметила Шмидт. Так, на фоне большого количества видеоматериалов (миллионы часов), колоссально низкой остается доля размеченных архивов, на базе которых может проводиться машинное обучение. Это приводит к загрузке ученых ручной работой по сбору и вводу данных. Шмидт поделилась, что в INRIA создан архив глубиной более 30 часов. С его привлечением детектировано уже 30 000 поз.
К числу других актуальных задач относятся: локализация объектов в движении, локализация и различение двух объектов, распознавание объектов при движении камеры и т.д.
Корделия Шмидт отметила широту сферы применения технологий распознавания действий людей. Например, нейронные сети позволят без участия диспетчера определить делает ли человек что-либо противоправное, основываясь на анализе действий пешехода, принять наиболее безопасное решение беспилотному автомобилю и т.д.