Нейросеть научили описывать происходящее на видео

Разрабочики Facebook создали нейронную сеть, которая описывает происходящее на видео в реальном времени. Они также собрали датасет из 20 тысяч видеороликов с 123 тысячами описаний. В перспективе технология может помочь слабовидящим и незрячим людям в повседневной жизни, создавая описания к окружающему миру.

Создание описаний происходящего

Команда обучала рекуррентную нейронную сеть (RNN) с архитектурой энкодер-декодер, которая обычно используется для задач обработки естественного языка. Для обучения использовались 17098 видео датасета VideoStory. Нейросеть кодировала видео и описывала каждый сегмент. Модель научилась генерировать описания, однако они не были совсем правильными. В видео, где ребенок играл с собакой, описывались только действия собаки. Однако нейросеть умеет учитывать корреляцию между прошлыми и будущими событиями и добавлять контекст.

Описания, сгенерированные нейронной сетью

Датасет VideoStory

Набор данных состоит из 20 тысяч видеороликов длиной от 20 до 180 секунд. Видео содержат параграфы, описывающие ситуации, объекты и детали происходящего. Набор состоит из видео с разной тематикой, которые отобраны из популярных роликов с большим количеством комментариев в социальных сетях. Разработчики считают, что датасет станет хорошей основой для дальнейших исследований в этой области и обучения моделей.

В Facebook нацелены совершенствовать разработку — сделать текстовые описания видео более последовательными и обучить модель «рассказывать истории». Работу представили в ноябре на конференции EMNLP 2018, посвященной эмпирическим методам в обработке естественного языка.