Mochi 1 — открытая модель генерации видео с архитектурой Asymmetric Diffusion Transformer (AsymmDiT) от Genmo AI. Mochi 1 содержит 10 миллиардов параметров, сокращая имеющийся разрыв в качестве между закрытыми и открытыми моделями. Разработчики фокусировались на качественных движениях камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face и для тестирования на genmo.ai/play.
Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.
magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce pic.twitter.com/YzmLQ9g103
— Genmo (@genmoai) October 22, 2024
Характеристики открытой модели генерации видео Mochi 1
- Только текст-в-видео;
- Построена на модели диффузии с 10 миллиардами параметров и асимметричной архитектурой, выделяющей больше ресурсов для обработки визуальных данных. Использует T5-XXL для кодирования запросов.
- Сжимает видео до 128x меньшего размера с помощью AsymmVAE;
- Генерирует видео с частотой 30 кадров в секунду длительностью до 5,4 секунд;
- Точное соответствие промтам, проверенное на стандартизированных тестах.
Архитектура модели
Открытая модель генерации видео Mochi 1 содержит 10 миллиардов параметров, построенных на AsymmDiT. Новая архитектура ассиметрична: ресурсы выделяемые для обработки визуальных данных значительно больше, чем для текстовых. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну модель T5-XXL. Эффективное использование QKV проекций и несимметричных слоев улучшает память и скорость обработки.
Сжатие с AsymmVAE. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.
Производительность и оценки генерации видео
Mochi 1 генерирует видео в разрешении 480p с частотой 30 кадров в секунду, предлагая высокую временную согласованность. Тесты демонстрируют плавную симуляцию сложных движений, например, течение жидкостей или реалистичные человеческие жесты.
Genmo has updated their game, generations much better, but lack sharpness pic.twitter.com/dXnm0L5h6N
— Myron (@seirdotmk) October 23, 2024
Соответствие промту: Превосходит коммерческие модели, такие как Luma Dream Machine, достигая уровня соответствия промту в ~78%. Визуальное сравнение это подтверждает.
Качество движения камеры (Elo Score): Самый высокий результат среди моделей, что свидетельствует о более плавной и реалистичной анимации по сравнению с конкурентами. Визуально разницы нет.
Технический пейпер пока не выпущен разработчиками.
Требования к производительности
Модель требует как минимум 4 GPU H100 для эффективной работы. Продолжается работа над снижением этих требований, чтобы сделать модель более доступной для слабых устройств.
Ограничения
Mochi 1 всё ещё находится в стадии предварительного релиза, генерируя видео в 480p. В некоторых случаях могут возникать искажения, и на данный момент она лучше всего подходит для фотореалистичных стилей. Поддержка анимации ограничена.
Безопасность и перспективы развития
Genmo не гарантирует безопасность, команда все еще работает над исключением NSFW. Поощряется участие сообщества для дальнейшей разработки. В будущем планируются обновления, включая поддержку HD видео и оптимизацию.