Нейросеть от MIT распознает, что происходит на видео

Исследователи из MIT создали нейронную сеть, которая распознает транформации объектов на видео в реальном времени. В будущем технология поможет машинам лучше анализировать, что происходит вокруг них и даже предполагать развитие событий.

Учёные использовали свёрточную нейросеть (CNN) и Temporal Relation Network, которая анализирует кадры с расположением объектов на разных этапах видео. Например, кадр, на котором листы бумаги сложены, а затем кадр, где они разбросаны. После обучения нейросеть распознаёт один и тот же тип активности в тестовых видео, сопоставляя новые кадры с изученными видами движений. Точность распознавания — 95%.

Нейросеть также научилась предугадывать события и делает это точнее, чем предыдущие модели, анализируя первые 25-50% кадров.

Алгоритм тренировали используя три набора данных с короткими видеороликами разных видов движений. Для обучения понадобилось 360000 видеороликов и 360 категорий движений — от жестов до передвижения предметов и игры в баскетбол.

В будущих работах исследователи собираются научить нейросеть распознавать объекты. Исходный код проекта доступен open source.