Нейросеть генерирует схему дороги по одному изображению

MonoLayout — это нейросетевая модель, которая генерирует схему дороги с высоты птичьего полета по одному изображению. Модель может генерировать схемы в реальном времени: до 30 кадров в секунду. MonoLayout обходит state-of-the-art модели на вариациях датасета KITTI: KITTI-Raw, KITTI-Object и KITTI Odometry.

Модель решает задачу оценки схемы дороги и объектов на дороге. Предсказанная схема должна учитывать объекты целиком, а не исключительно ту их часть, что попала в кадр. Схема сцены представляется как многоканальная семантическая карта навигации (occupancy grid). Исследователи используют состязательное обучение, чтобы улучшать качество генерируемых схем.

Архитектура модели

MonoLayout состоит из четырех подсетей:

Кодировщик контекста (context encoder) извлекает признаки из входного изображения дороги;
Статический декодировщик сцены, который декодирует контекст и генерирует карту дороги. Эта часть модели состоит из серии деконволюций и upsampling-слоев;
Динамический декодировщик сцены, который предсказывает расположение объектов на дороге. Архитектурно он схож со статическим декодировщиком;
Два дискриминатора, с помощью которых сгенерированные схемы итеративно улучшаются. В дискриминаторе сгенерированная схема сравнивается с реальными схемами дорог из OpenStreetMap и реальным расположением объектов на дороге

Оценка результатов нейросети

Исследователи оценили MonoLayout на нескольких вариациях датасета KITTI: KITTI-Raw, KITTI-Object и KITTI Odometry. Статичную разметку дороги они проверяли на датасетах KITTI Raw и KITTI Odometry, а динамическую — на KITTI Object. Полную архитектуру тестировали на KITTI Tracking и Argoverse. Ниже видно, что MonoLayout обходит state-of-the-art подходы на всех подзадачах.