Исследователи из Amazon опубликовали метод для генерации реалистичных синтетических снимков с группой людей. Такие данные используются при обучении моделей компьютерного зрения, в случае если реальных размеченных данных недостаточно. При этом подход позволяет полностью контролировать содержание изображений. Сгенерированные данные использовали для обучения многозадачной модели для оценки глубины изображения и UV-преобразования.
Как обучалась нейросеть
Чтобы уменьшить разрыв между синтетическими и реальными данными, исследователи предложили пайплайн, который состоит из 5 шагов:
- Сцены рендерятся в контексте, который смоделирован наподобие реального мира;
- Модель для распознавания людей обучают на синтетических данных;
- Обученная модель используется для оценки карт сегментации для реальных изображений;
- Затем условная генеративно-состязательная сеть (cGAN) выучивает преобразование из карты сегментации в реальное изображение;
- Новые карты сегментации используются для генерации реалистичных изображений с помощью обученной cGAN
В качестве архитектуры cGAN использовали SPADE.
Оценка работы модели
Исследователи тестировали нейросеть на датасете для паноптической сегментации CMU Panoptic Dataset. По результатам сравнений, предложенная модель обходит альтернативные подходы.