fbpx
  • DVD-GAN: новый state-of-the-art в генерации видео

    DVD-GAN — это нейросеть для генерации видео, которая была разработана исследователями из DeepMind. По результатам экспериментов, DVD-GAN лучше предыдущих решений справляется с задачами генерации и предсказания видео. Модели тестировались на данных Kinetics-600 и UCF-101. Архитектура нейросети основывается на BigGAN, текущем state-of-the-art в генерации изображений.

    Стандартные генеративные модели изображений выдают достоверные результаты. Задача генерации видео более комплексная, чем генерация изображений. В связи с этим state-of-the-art в генерации видео по достоверности результатов отстают от state-of-the-art в генерации изображений. Исследователи из DeepMind разработали модель, которая генерирует более достоверные результаты, чем ранние решения. Цель исследования была в том, чтобы показать, что GAN, обученная на комплексном датасете (Kinetics-600), может генерировать видео более высокой степени сложности, чем предыдущие решения.

    Предложенная модель Dual Video Discriminator GAN (DVD-GAN) масштабируется на более длинные видео с высоким разрешением. Нейросеть генерирует видеозаписи с разрешением 256 × 256 и длиной до 48 кадров. Это возможно благодаря декомпозированному модулю дискриминатора.

    Архитектура модели

    Основной вклад исследования — возможность нейросети генерировать видеозаписи, кадры в которых последовательны, в высоком разрешении. 

    Генератор не содержит делится на части для отдельной генерации заднего фона, оптического потока и переднего фона. Вместо этого архитектура основывается на BigGAN. DVD-GAN содержит модуль внимания и RNN, но модель не является авторегрессивной. 

    Пока RNN выдает векторное представление для каждого кадра в последовательности кадров, все кадры генерируются ResNet параллельно. Пиксели каждого кадра не зависят напрямую от других пикселей в видео, как в случае с авторегрессивной моделью.

    Визуализация составных частей модели

    Сравнение моделей

    Разработка метрик для оценки генеративных моделей — это открытое поле для исследований. В работе исследователи использовали две самые популярные метрики для оценки GAN: Inception Score (IS) и Fréchet Inception Distance (FID)

    Ниже видно, что на задаче генерации видео DVD-GAN выдает более правдоподобные результаты, чем существующие подходы.

    Сравнение подходов на задаче UCF-101. Чем больше метрика, тем выше качество модели