Представление о постоянстве объектов (Object Permanence) позволяет людям судить о положении объектов, которые закрыты другими объектами и вне зоны видимости. Это происходит через осознание, что объекты продолжают существовать, даже если они не видны напрямую. Чувство постоянства объекта критично для построения модели мира. Объекты в визуальных сценах в реальном мире динамически перекрываются другими объектами.
Исследователи рассматривают 4 типа объектов для обучения нейросети постоянству объектов:
- Видимые объекты;
- Перекрытые другими объектами объекты;
- Объекты, которые содержатся в другом объекте;
- Объекты, которые переносятся другим объектом
Четвертая подзадача, которая предполагает, что целевой объект содержится в перемещающемся объекте, является наиболее сложной. Это связано с тем, что системе необходимо учитывать динамичность положения объекта. Исследователи предлагают нейросетевую модель OPNet для решения задачи. По результатам экспериментов, OPNet обходит существующие методы локализации объектов и базовые модели.
Архитектура модели
Архитектура Object Permanence сети (OPNet) состоит из трех компонентов:
- Модуль для распознавания объекта (FRCNN);
- Блок для определения объекта, за которым будет вестись наблюдение. Это актуально для объектов, которые содержатся или переносятся другими объектами (LSTM + линейный слой);
- Модуль для трекинга перекрытых и видимых объектов (LSTM + линейный слой)
Оценка работы нейросети
Исследователи тестировали модель на датасете LA-CATER. OPNet обходит state-of-the-art подходы для объектов, которые содержатся в других объектах и переносятся другими объектами.