Sora: диффузионная text-to-image модель OpenAI

openai sora

OpenAI представила Sora – диффузионную text-to-image модель, генерирующую видео длительностью 60 секунд. Ключевые преимущества модели OpenAI по сравнению с решениями конкурентов (включая Runway, Pika, Stability AI и Google) – высокое разрешение (Full HD), плавность движений камеры и объектов и высокая анатомическая точность при изображении человека.

В отличие от моделей Runway и Pika, в которых за один раз может быть сгенерировано только 4 секунды видео, Sora генерирует 60-секундные видео с возможностью продолжения во времени уже созданных видео. За счет одновременной генерации всех кадров видео Sora лишена проблемы, присущей другим моделям – изменению вида объектов, временно пропадающих из поля зрения камеры. Также модель учитывает не только содержание запроса, но и то, как обычно объекты выглядят в рамках запрошенной сцены.

 

В OpenAI отмечают, что в текущей версии модели присутствуют неточности при генерации видео. Например, если человек откусывает печенье, печенье после этого остается целым.

На текущий момент модель тестируется на предмет недостатков, предвзятости и потенциальных злоупотреблений. При этом она доступна ряду участвующих в тестировании создателей контента, которые отправлять обратную связь в OpenAI.

Больше примеров видео, сгенерированных Sora, и технический отчет OpenAI доступны по ссылке.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt