Нейросеть распознает перекрытые объекты на видеозаписи

Представление о постоянстве объектов (Object Permanence) позволяет людям судить о положении объектов, которые закрыты другими объектами и вне зоны видимости. Это происходит через осознание, что объекты продолжают существовать, даже если они не видны напрямую. Чувство постоянства объекта критично для построения модели мира. Объекты в визуальных сценах в реальном мире динамически перекрываются другими объектами. 

Исследователи рассматривают 4 типа объектов для обучения нейросети постоянству объектов:

  • Видимые объекты;
  • Перекрытые другими объектами объекты;
  • Объекты, которые содержатся в другом объекте;
  • Объекты, которые переносятся другим объектом

Четвертая подзадача, которая предполагает, что целевой объект содержится в перемещающемся объекте, является наиболее сложной. Это связано с тем, что системе необходимо учитывать динамичность положения объекта. Исследователи предлагают нейросетевую модель OPNet для решения задачи. По результатам экспериментов, OPNet обходит существующие методы локализации объектов и базовые модели.

Архитектура модели

Архитектура Object Permanence сети (OPNet) состоит из трех компонентов:

  1. Модуль для распознавания объекта (FRCNN);
  2. Блок для определения объекта, за которым будет вестись наблюдение. Это актуально для объектов, которые содержатся или переносятся другими объектами (LSTM + линейный слой);
  3. Модуль для трекинга перекрытых и видимых объектов (LSTM + линейный слой)
Визуализация составных частей модели

Оценка работы нейросети

Исследователи тестировали модель на датасете LA-CATER. OPNet обходит state-of-the-art подходы для объектов, которые содержатся в других объектах и переносятся другими объектами.

Сравнение работы моделей
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt