NVidia представили городскую среду, созданную генеративной нейронной сетью

Команда Nvidia обучила генеративную нейросеть (GAN) рендерингу окружающей среды после обучения на реальных видео, снятых в разных городах. Этот прорыв позволит разработчикам и художникам создавать новые интерактивные 3D-миры в виртуальной реальности, путем обучения нейронной сети на реальных видео. Это снизит затраты и время, необходимое для создания виртуальных миров.

Алгоритм был разработан командой исследователей NVIDIA во главе с Брайаном Катандзаро, Вице-президентом по прикладному глубокому обучению в NVIDIA.

«Одним из главных препятствий, с которыми сталкиваются разработчики при создании виртуальных миров, будь то разработка игр или других приложений — высокая стоимость создания контента. Этот метод позволяет художникам и разработчикам создавать 3D модели с гораздо меньшими затратами, используя ИИ, который обучается сам», — сказал Катандзаро.

Исследование в настоящее время демонстрируется на конференции NeurIPS в Монреале, на которую съехались самые известные исследователи искусственного интеллекта в мире. Исследовательская группа создала простую игру для NeurIPS, которая позволяет интерактивно перемещаться по среде, созданной AI.

Демонстрация стала возможной благодаря NVIDIA Tensor Core GPU и дает людям совершенно новый способ испытать интерактивную графику.

«До появления тензорных ядер такая демонстрация была бы невозможна», — сказал Катандзаро.

Сеть работает на высокоуровневых описаниях сцены, например: карты сегментации или карты границ, которые описывают, где находятся объекты и их общие характеристики, например, содержит ли конкретная часть изображения автомобиль или здание, или где края объекта. Затем сеть заполняет детали, основываясь на том, что она узнала из реальных видеороликов.

Демонстрация позволяет посетителям перемещаться по виртуальной городской среде, которая создается этой нейронной сетью. Сеть обучалась на видеороликах в реальной городской среде. Генеративная нейронная сеть научилась воссоздавать освещение и материалы визуального мира в динамике.

Поскольку выход генерируетсясинтетически , сцена может быть легко отредактирована для удаления, изменения или добавления объектов.

Для обучения команда использовала графические процессоры NVIDIA Tesla V100 на DGX-1 на PyTorch с ускорением cuDNN и тысячами видео из наборов данных Cityscapes и Apolloscapes.