В Amazon генерируют синтетические групповые снимки

Исследователи из Amazon опубликовали метод для генерации реалистичных синтетических снимков с группой людей. Такие данные используются при обучении моделей компьютерного зрения, в случае если реальных размеченных данных недостаточно. При этом подход позволяет полностью контролировать содержание изображений. Сгенерированные данные использовали для обучения многозадачной модели для оценки глубины изображения и UV-преобразования.

Как обучалась нейросеть

Чтобы уменьшить разрыв между синтетическими и реальными данными, исследователи предложили пайплайн, который состоит из 5 шагов:

Сцены рендерятся в контексте, который смоделирован наподобие реального мира;
Модель для распознавания людей обучают на синтетических данных;
Обученная модель используется для оценки карт сегментации для реальных изображений;
Затем условная генеративно-состязательная сеть (cGAN) выучивает преобразование из карты сегментации в реальное изображение;
Новые карты сегментации используются для генерации реалистичных изображений с помощью обученной cGAN

В качестве архитектуры cGAN использовали SPADE.

Оценка работы модели

Исследователи тестировали нейросеть на датасете для паноптической сегментации CMU Panoptic Dataset. По результатам сравнений, предложенная модель обходит альтернативные подходы.