fbpx
  • Нейросеть генерирует схему дороги по одному изображению

    MonoLayout — это нейросетевая модель, которая генерирует схему дороги с высоты птичьего полета по одному изображению. Модель может генерировать схемы в реальном времени: до 30 кадров в секунду. MonoLayout обходит state-of-the-art модели на вариациях датасета KITTI: KITTI-Raw, KITTI-Object и KITTI Odometry.

    Модель решает задачу оценки схемы дороги и объектов на дороге. Предсказанная схема должна учитывать объекты целиком, а не исключительно ту их часть, что попала в кадр. Схема сцены представляется как многоканальная семантическая карта навигации (occupancy grid). Исследователи используют состязательное обучение, чтобы улучшать качество генерируемых схем.

    Архитектура модели

    MonoLayout состоит из четырех подсетей:

    1. Кодировщик контекста (context encoder) извлекает признаки из входного изображения дороги;
    2. Статический декодировщик сцены, который декодирует контекст и генерирует карту дороги. Эта часть модели состоит из серии деконволюций и upsampling-слоев;
    3. Динамический декодировщик сцены, который предсказывает расположение объектов на дороге. Архитектурно он схож со статическим декодировщиком;
    4. Два дискриминатора, с помощью которых сгенерированные схемы итеративно улучшаются. В дискриминаторе сгенерированная схема сравнивается с реальными схемами дорог из OpenStreetMap и реальным расположением объектов на дороге
    Визуализация составных частей модели

    Оценка результатов нейросети

    Исследователи оценили MonoLayout на нескольких вариациях датасета KITTI: KITTI-Raw, KITTI-Object и KITTI Odometry. Статичную разметку дороги они проверяли на датасетах KITTI Raw и KITTI Odometry, а динамическую — на KITTI Object. Полную архитектуру тестировали на KITTI Tracking и Argoverse. Ниже видно, что MonoLayout обходит state-of-the-art подходы на всех подзадачах.

    Сравнение результатов моделей на вариациях датасета KITTI