fbpx
  • Нейросеть распознает перекрытые объекты на видеозаписи

    Представление о постоянстве объектов (Object Permanence) позволяет людям судить о положении объектов, которые закрыты другими объектами и вне зоны видимости. Это происходит через осознание, что объекты продолжают существовать, даже если они не видны напрямую. Чувство постоянства объекта критично для построения модели мира. Объекты в визуальных сценах в реальном мире динамически перекрываются другими объектами. 

    Исследователи рассматривают 4 типа объектов для обучения нейросети постоянству объектов:

    • Видимые объекты;
    • Перекрытые другими объектами объекты;
    • Объекты, которые содержатся в другом объекте;
    • Объекты, которые переносятся другим объектом

    Четвертая подзадача, которая предполагает, что целевой объект содержится в перемещающемся объекте, является наиболее сложной. Это связано с тем, что системе необходимо учитывать динамичность положения объекта. Исследователи предлагают нейросетевую модель OPNet для решения задачи. По результатам экспериментов, OPNet обходит существующие методы локализации объектов и базовые модели.

    Архитектура модели

    Архитектура Object Permanence сети (OPNet) состоит из трех компонентов:

    1. Модуль для распознавания объекта (FRCNN);
    2. Блок для определения объекта, за которым будет вестись наблюдение. Это актуально для объектов, которые содержатся или переносятся другими объектами (LSTM + линейный слой);
    3. Модуль для трекинга перекрытых и видимых объектов (LSTM + линейный слой)
    Визуализация составных частей модели

    Оценка работы нейросети

    Исследователи тестировали модель на датасете LA-CATER. OPNet обходит state-of-the-art подходы для объектов, которые содержатся в других объектах и переносятся другими объектами.

    Сравнение работы моделей