26-слойная свёрточная нейронная сеть для наилучшего определения людской деятельности — uzkinobiz.ru

Группа исследователей разработала новейший дизайн свёрточных нейронных сетей, с помощью которого можно поточнее и резвее распознавать людские деяния на видео.

Свёрточные нейронные сети (СНС), обширно применяемые в машинном обучении, достигнули не плохих результатов в решении целого ряда различных задач, в том числе связанных с определением лиц определенных людей либо объектов на изображениях. С помощью глубочайшего обучения пробуют решить и задачку определения человечьих действий (Human Activity Recognition, HAR) на изображениях и видеозаписях. Исследователи из Пакистана, Южной Кореи, Англии и Саудовской Аравии не так давно разработали дизайн свёрточных сетей, позволяющий стремительно и буквально распознавать людскую деятельность на видеоматериалах. Он описан в статье, размещенной в журнальчике Multimedia Tools and Applications. Сеть умеет различать некоторое количество видов людской деятельности, включая бокс, хлопанье, размахивание руками, бег трусцой, просто бег и ходьбу.

Определение действий человека на изображениях либо видео с помощью СНС обычно основывается на выделении ряда соответствующих черт действий человека. Но некие виды движений, такие как бег трусцой и ходьба, весьма похожи, как и их соответствующие черты. Это затрудняет работу нейронной сети. Поэтому что при таковых критериях признаки, на которых СНС основывают собственный анализ, время от времени бывают неактуальными либо сверхизбыточными, и это приводит к ошибкам систематизации.

Для преодоления данной для нас трудности исследователи добавили к конкретно выделению соответствующих черт свою регуляризацию, чтоб нейросеть труднее было запутать. В качестве регуляризации использовалось распределение Пуассона с унивариантными мерами (Poisson distribution with univariate measures, PDaUM). В итоге внедрения таковой регуляризации нейросеть выбирает весьма четкие признаки определенного людского деяния, и это приводит к правильной систематизации в большем проценте случаев.

Исследователи научили и оценили две разных СНС — нейросеть с экстремальным обучением (extreme learning machine, ELM), а также с применением классификатора Softmax (одноимённый с соответственной функцией) на четырёх датасетах с видеозаписями людей, выполняющих определённые деяния: HMDB51 (от human motion database, база данных человечий движений), UFC Sports (Ultimate Fighting Championship), KTH и датасет человечьих действий Вайцмана (Weizmann Human Action Dataset). В обоих вариантах также использовалась предложенная создателями регуляризация.

В итоге, сеть ELM показала существенно наилучшие результаты, чем Softmax: она распознавала людские деяния на видео с точностью 81,4 % на наборе данных HMDB51, 99,2% на наборе данных UCF Sports, 98,3% на наборе данных KTH и 98,7% на наборе данных Weizmann.

Броско, что классификатор ELM c регуляризацией PDaUM превзошёл по точности и скорости все способы определения человечьих действий на базе глубочайшего обучения, с которыми исследователи его ассоциировали.

В дальнейшем классификатор ELM и регуляризация PDaUM могут дозволить создать наиболее действенные инструменты для автоматического определения человечьих действий как в записи, так и в настоящем времени. Как и почти все остальные методы машинного обучения, этот классификатор можно в будущем приспособить к применению в области слежки, к примеру, считывать, что делает заключённый в камере либо случайный гость в подъезде вашего дома, и стремительно о этом информировать заинтересованных лиц. Хотя к такому применению могут быть этические вопросцы. Также можно будет рассматривать огромное количество записей — к примеру с камер наблюдения в магазинах.