MonoLayout — это нейросетевая модель, которая генерирует схему дороги с высоты птичьего полета по одному изображению. Модель может генерировать схемы в реальном времени: до 30 кадров в секунду. MonoLayout обходит state-of-the-art модели на вариациях датасета KITTI: KITTI-Raw, KITTI-Object и KITTI Odometry.
Модель решает задачу оценки схемы дороги и объектов на дороге. Предсказанная схема должна учитывать объекты целиком, а не исключительно ту их часть, что попала в кадр. Схема сцены представляется как многоканальная семантическая карта навигации (occupancy grid). Исследователи используют состязательное обучение, чтобы улучшать качество генерируемых схем.
Архитектура модели
MonoLayout состоит из четырех подсетей:
- Кодировщик контекста (context encoder) извлекает признаки из входного изображения дороги;
- Статический декодировщик сцены, который декодирует контекст и генерирует карту дороги. Эта часть модели состоит из серии деконволюций и upsampling-слоев;
- Динамический декодировщик сцены, который предсказывает расположение объектов на дороге. Архитектурно он схож со статическим декодировщиком;
- Два дискриминатора, с помощью которых сгенерированные схемы итеративно улучшаются. В дискриминаторе сгенерированная схема сравнивается с реальными схемами дорог из OpenStreetMap и реальным расположением объектов на дороге
Оценка результатов нейросети
Исследователи оценили MonoLayout на нескольких вариациях датасета KITTI: KITTI-Raw, KITTI-Object и KITTI Odometry. Статичную разметку дороги они проверяли на датасетах KITTI Raw и KITTI Odometry, а динамическую — на KITTI Object. Полную архитектуру тестировали на KITTI Tracking и Argoverse. Ниже видно, что MonoLayout обходит state-of-the-art подходы на всех подзадачах.