Mochi 1: открытая модель генерации видео от Genmo

Mochi 1 — открытая модель генерации видео с архитектурой Asymmetric Diffusion Transformer (AsymmDiT) от Genmo AI. Mochi 1 содержит 10 миллиардов параметров, сокращая имеющийся разрыв в качестве между закрытыми и открытыми моделями. Разработчики фокусировались на качественных движениях камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face и для тестирования на genmo.ai/play.

Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.

magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce pic.twitter.com/YzmLQ9g103

— Genmo (@genmoai) October 22, 2024

Характеристики открытой модели генерации видео Mochi 1

Только текст-в-видео;
Построена на модели диффузии с 10 миллиардами параметров и асимметричной архитектурой, выделяющей больше ресурсов для обработки визуальных данных. Использует T5-XXL для кодирования запросов.
Сжимает видео до 128x меньшего размера с помощью AsymmVAE;
Генерирует видео с частотой 30 кадров в секунду длительностью до 5,4 секунд;
Точное соответствие промтам, проверенное на стандартизированных тестах.

Архитектура модели

Открытая модель генерации видео Mochi 1 содержит 10 миллиардов параметров, построенных на AsymmDiT. Новая архитектура ассиметрична: ресурсы выделяемые для обработки визуальных данных значительно больше, чем для текстовых. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну модель T5-XXL. Эффективное использование QKV проекций и несимметричных слоев улучшает память и скорость обработки.

Сжатие с AsymmVAE. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Производительность и оценки генерации видео

Mochi 1 генерирует видео в разрешении 480p с частотой 30 кадров в секунду, предлагая высокую временную согласованность. Тесты демонстрируют плавную симуляцию сложных движений, например, течение жидкостей или реалистичные человеческие жесты.

Genmo has updated their game, generations much better, but lack sharpness pic.twitter.com/dXnm0L5h6N

— Myron (@seirdotmk) October 23, 2024

Соответствие промту: Превосходит коммерческие модели, такие как Luma Dream Machine, достигая уровня соответствия промту в ~78%. Визуальное сравнение это подтверждает.

Качество движения камеры (Elo Score): Самый высокий результат среди моделей, что свидетельствует о более плавной и реалистичной анимации по сравнению с конкурентами. Визуально разницы нет.

Технический пейпер пока не выпущен разработчиками.

Требования к производительности

Модель требует как минимум 4 GPU H100 для эффективной работы. Продолжается работа над снижением этих требований, чтобы сделать модель более доступной для слабых устройств.

Ограничения

Mochi 1 всё ещё находится в стадии предварительного релиза, генерируя видео в 480p. В некоторых случаях могут возникать искажения, и на данный момент она лучше всего подходит для фотореалистичных стилей. Поддержка анимации ограничена.

Безопасность и перспективы развития

Genmo не гарантирует безопасность, команда все еще работает над исключением NSFW. Поощряется участие сообщества для дальнейшей разработки. В будущем планируются обновления, включая поддержку HD видео и оптимизацию.