Mochi 1: открытая модель генерации видео от Genmo

Mochi 1 — открытая модель генерации видео с архитектурой Asymmetric Diffusion Transformer (AsymmDiT) от Genmo AI. Mochi 1 содержит 10 миллиардов параметров, сокращая имеющийся разрыв в качестве между закрытыми и открытыми моделями. Разработчики фокусировались на качественных движениях камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face и для тестирования на genmo.ai/play.

Характеристики открытой модели генерации видео Mochi 1

  • Только текст-в-видео;
  • Построена на модели диффузии с 10 миллиардами параметров и асимметричной архитектурой, выделяющей больше ресурсов для обработки визуальных данных. Использует T5-XXL для кодирования запросов.
  • Сжимает видео до 128x меньшего размера с помощью AsymmVAE;
  • Генерирует видео с частотой 30 кадров в секунду длительностью до 5,4 секунд;
  • Точное соответствие промтам, проверенное на стандартизированных тестах.

Архитектура модели

Открытая модель генерации видео Mochi 1 содержит 10 миллиардов параметров, построенных на AsymmDiT.  Новая архитектура ассиметрична: ресурсы выделяемые для обработки визуальных данных значительно больше, чем для текстовых. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну модель T5-XXL. Эффективное использование QKV проекций и несимметричных слоев улучшает память и скорость обработки.

Сжатие с AsymmVAE. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Производительность и оценки генерации видео

Mochi 1 генерирует видео в разрешении 480p с частотой 30 кадров в секунду, предлагая высокую временную согласованность. Тесты демонстрируют плавную симуляцию сложных движений, например, течение жидкостей или реалистичные человеческие жесты.

Соответствие промту: Превосходит коммерческие модели, такие как Luma Dream Machine, достигая уровня соответствия промту в ~78%. Визуальное сравнение это подтверждает.

open source video generation models promt adherence comparison

Качество движения камеры (Elo Score): Самый высокий результат среди моделей, что свидетельствует о более плавной и реалистичной анимации по сравнению с конкурентами. Визуально разницы нет.

open source video generation model quality elo mochi 1

Технический пейпер пока не выпущен разработчиками.

Требования к производительности

Модель требует как минимум 4 GPU H100 для эффективной работы. Продолжается работа над снижением этих требований, чтобы сделать модель более доступной для слабых устройств.

Ограничения

Mochi 1 всё ещё находится в стадии предварительного релиза, генерируя видео в 480p. В некоторых случаях могут возникать искажения, и на данный момент она лучше всего подходит для фотореалистичных стилей. Поддержка анимации ограничена.

Безопасность и перспективы развития

Genmo не гарантирует безопасность, команда все еще работает над исключением NSFW. Поощряется участие сообщества для дальнейшей разработки. В будущем планируются обновления, включая поддержку HD видео и оптимизацию.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt