Google Veo: модель генерации и редактирования видео

google veo

Google DeepMind представила генеративную модель Veo, создающую видео длительностью более 60 секунд в разрешении Full HD. Помимо текстовых запросов, модель может принимать на вход изображения и видеоролики.

Ключевой особенностью VEO в Google называют возможность генерировать видео в любом кинематографическом стиле и точное воспроизведение содержания запроса — например, модель может учитывает термины «фотореализм», «сюрреализм», «аэрофотосъемка», «таймлапс» и т. д. Модель работает в трех режимах: text2video, image2video и video2video. В режиме video2video Veo может вносить правки в созданные ранее видео — также в любом стиле — с помощью текстовых запросов.

Как и в модели OpenAI Sora, в VEO решена одна из самых крупных проблем text2video моделей — неточное воспроизведение объектов, не постоянно находящихся в кадре. Во все видеоролики Veo встроен водянок знак SynthID, что гарантирует возможность проверки видео на предмет синтетической генерации и защитить изображенных на видеороликах людей от дипфейков. Модель является результатом интеграции таких разработок DeepMind, как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere.

Как и в случае с Sora от OpenAI, Google не предоставила доступ к модели. Чтобы попробовать ее, можно записаться в список ожидания на VideoFX. В будущем некоторые возможности Veo станут доступными при создании YouTube Shorts и в других продуктах компании.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt