Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

SORA AI video generation model goes public

OpenAI объявила о публичном релизе Sora Turbo, значительно улучшенной версии своей гиперреалистичной text-to-video, image-to-video и video-to-video модели. Презентация прошла на конференции «12 дней OpenAI», спустя почти 10 месяцев после первой публичной демонстрации модели в феврале 2024 года.

Технические возможности Sora

Sora Turbo была существенно улучшена по сравнению февральской версией, теперь доступно разрешение от 480p до 1080p, длительность видео от 10 до 20 секунд, широкоэкранное, квадратное и вертикальное соотношения сторон. Модель принимает на ввод текст, изображения и видео.

OpenAI разработала user-интерфейс Sora с возможностью переключения между режимом раскадровки с таймлайном, плавным управлением переходами между видеофрагментами. Пользователи могут использовать функциональность drag-and-drop для настройки склеек и переходов.

Это видео на 100% сгенерировано искусственным интеллектом:

Как видно, текст внутри видео Sora пока удается плохо, но остальные детали впечатляют реалистичностью исполнения.

Все функции генерации и редактирования видео Sora

Sora Turbo предлагает широкий набор инструментов для редактирования видео, который выделяет ее среди традиционных видеогенераторов. Платформа включает важные функции для контроля за творческим процессом.

Функция Remix позволяет заменять, удалять или перегенерировать компоненты внутри сцен. Например, пользователи могут трансформировать окружение, перемещая объекты, изменять архитектурные элементы (например, заменять обычные двери на резные), или полностью менять сцену (переключаясь с городского пейзажа на лунный).

Инструмент Storyboard представляет профессиональный интерфейс таймлайна, где пользователи могут организовывать и редактировать последовательность видеоряда. Каждый кадр можно редактировать, с возможностью указывать детальные описания сцен и тайминги. Система поддерживает непрерывность между сценами, позволяя создавать творческие переходы между различными окружениями и сценариями.

Дополнительные инструменты Sora включают:

  • Loop: cоздает бесшовные повторяющиеся видео;
  • Blend: объединяет несколько клипов в целостные последовательности;
  • Re-cut: позволяет изолировать кадры и расширять сцены в обоих направлениях;
  • Style presets: включает предустановленные визуальные стили, которые трансформируют сцены с определенными цветовыми палитрами и текстурами.

Подписка и доступ

Модель теперь доступна через sora.com для подписчиков ChatGPT Plus и Pro, при этом из-за жестких регуляций пользователи из ЕС и Великобритании доступ не получили. Уровни доступа включают ChatGPT Plus ($20/месяц), предлагающий до 50 видео с разрешением 480p ежемесячно, и Pro Plan ($200/месяц) с более высоким разрешением, большей длительностью и неограниченным количеством генерацией (скорость при этом все же ограничена). Корпоративные планы подписки планируется добывать к началу 2025 года.

Безопасность

Для обеспечения безопасности и прозрачности OpenAI внедрила следующие ограничения:

  • Интеграция метаданных C2PA и водяные знаки по умолчанию для верификации происхождения;
  • Внутренний инструмент поиска для верификации контента;
  • Ограничения на загрузку материалов с изображением людей;
  • Блокировка вредоносного контента, включая сексуальные дипфейки.

Первые отзывы

Техноблогер MKBHD (Маркес Браунли), один из нескольких десятков счастливчиков, получивших ранний доступ, поделился мнением о сильных сторонах и ограничениях системы. Отмечая впечатляющую способность создавать реалистичные кадры и высокое качество видео, он также указал на проблемы со случайными галлюцинациями деталей, неестественной физикой, искаженным текстом в генерируемом контенте и непоследовательностью объектов.

Противоречия и рыночная конкуренция

Релизу предшествовала утечка модели на Hugging Face бета-тестерами, протестующими против управления программой тестирования OpenAI. Тестеры критиковали компанию за использование неоплачиваемого труда для тестирования багов и обратной связи, минимальную компенсацию за промо-контент и несоответствие между оценкой компании в $150 млрд и компенсацией контрибьюторам.

Sora выходит на всё более конкурентный рынок, где Runway недавно добавила продвинутые функции, включая перезапись диалогов с соответствующей мимикой, Luma AI предлагает сопоставимые возможности, а китайские конкуренты, такие как Kling, Hailuo и Tencent, запускают похожие инструменты.

Текущие ограничения и планы на будущее

OpenAI признает текущие ограничения Sora Turbo, включая периодически неестественную физику, сложности с комплексными действиями большой длительности и необходимость улучшения скорости обработки. Компания подчеркивает, что этот релиз направлен на то, чтобы дать время изучить возможности, разработать соответствующие нормы и меры безопасности, а также раскрыть творческий потенциал видеогенерации.

MKBHD описывает модель как «новый бейзлайн» видеогенерации, признавая при этом, что это «худшее, чем она когда-либо будет» по мере развития технологий. Хотя узнаваемость бренда OpenAI благодаря ChatGPT может помочь популяризации Sora, конкурентная среда делает её рыночный успех менее определенным, особенно с учетом цены в $200 в месяц.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt