Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения

Исследователи из Skywork AI, Гонконгского университета науки и технологий представили Matrix-3D — фреймворк для создания полностью исследуемых трехмерных миров из одного изображения или текстового описания. Matrix-3D решает проблему ограниченного поля зрения существующих методов генерации 3D-сцен, позволяя получать 360-градусный обзор без артефактов границ. Код моделей доступен на Github.

Matrix-3D поддерживает готовый пайплайн для генерации 3D-мира в несколько шагов или одной командой. Пользователи могут скачать контрольные точки и запустить автоматическую генерацию, либо пройти процесс поэтапно: сначала преобразовать текст или изображение в панорамное фото, затем создать панорамное видео с разрешением 960 × 480 или 1440 × 720, и на финальном этапе реконструировать 3D-сцену одним из двух методов — оптимизационным для максимального качества или feed-forward для более быстрой обработки. Полученные сцены сохраняются в формате .ply вместе с рендерингами.

Архитектура фреймворка

Фреймворк построен на базе видео-диффузионной модели Wan2.1-I2V-14B. Обучение проводилось на 200K видеоклипов по 81 кадру с learning rate 1×10^-4 и batch size 21. Модели обучались в разрешениях 480×960 и 720×1440.

Matrix-3D pipeline overview showing transformation from single image to 3D world — Общая архитектура Matrix-3D: преобразование одного изображения или текста в полностью исследуемый 3D-мир через панорамное представление

Matrix-3D использует панорамные изображения как промежуточное представление сцены, захватывая полный обзор 360° × 180°. Фреймворк состоит из трех компонентов: генерации панорамного видео с управляемой траекторией, реконструкции сцены через mesh-рендеринг и преобразования в 3D-мир через два альтернативных подхода.

Основное отличие от предыдущих работ — использование mesh-рендеров вместо облаков точек. Эксперименты показали, что рендеры облаков точек создают муаровые паттерны и некорректно обрабатывают окклюзии между объектами. Mesh-представление устраняет эти геометрические артефакты, что подтверждается количественными метриками: PSNR увеличился с 23.4 до 23.8, FVD снизился с 260 до 242.

Comparison of trajectory guidance from mesh and point cloud representations — Сравнение качества генерации при использовании mesh-рендеров (справа) и облаков точек (в центре) для управления траекторией. Mesh-рендеры устраняют муаровые паттерны и артефакты окклюзии

Методы 3D-реконструкции

Matrix-3D предлагает два подхода к преобразованию панорамного видео в 3D-мир.

Оптимизационный метод выбирает ключевые кадры каждые 5 кадров из сгенерированного видео. Каждый панорамный кадр разбивается на 12 перспективных изображений, которые проходят через super-resolution (StableSR) перед подачей в пайплайн 3D Gaussian Splatting. Глубина оценивается через MoGe с последующим выравниванием через метод наименьших квадратов.

Feed-forward модель (Large Panorama Reconstruction Model) работает напрямую с латентными представлениями видео размером t×h×w×c. Архитектура включает:

Patchify модули для преобразования в токены;
4 блока трансформеров для захвата глобального контекста;
DPT head для предсказания гауссовских атрибутов;
3D-деконволюцию для увеличения разрешения по временному измерению.

Модель обучается в два этапа: сначала предсказание глубины с harmonic loss, затем остальные атрибуты Gaussian с комбинацией MSE и LPIPS потерь.

Датасет Matrix-Pano

Команда создала Matrix-Pano — синтетический датасет из 116,759 панорамных видеопоследовательностей с разрешением 1024×2048. Каждая последовательность содержит 81 кадр, траектории движения камеры, карты глубины и текстовые описания. Датасет создавался в Unreal Engine 5 на основе 504 3D-сцен.

Процесс генерации данных включал:

Автоматическую генерацию траекторий через алгоритм Дейкстры с последующим сглаживанием Лапласа;
Фильтрацию путей короче 18 метров для достаточной временной динамики;
Детекцию коллизий через bounding box алгоритм;
Двухэтапную проверку качества: автоматическую через Video-LLaMA3 и ручную валидацию первых кадров.

Результаты Matrix-3D и сравнения на бенчмарках

Количественные результаты:

Качественное сравнение 3D-реконструкции: ODGS (слева), Matrix-3D feed-forward (центр), Matrix-3D оптимизация (справа) и ground truth. Оптимизационный метод достигает наилучшего визуального качества:

Ограничения

Генерация требует 40 ГБ видеопамяти для разрешения 480p и 60 ГБ для 720p. В ближайшее время планируется выпуск облегчённой версии, позволяющей создавать 720p-контент при 24 ГБ VRAM, что сделает её совместимой с видеокартами уровня NVIDIA RTX 4090.

Текущие ограничения:

Время генерации одной сцены составляет десятки минут;
Неестественные переходы глубины в полупрозрачных областях (деревья, заборы);
Латентное представление видео не содержит явных геометрических признаков, что усложняет предсказание глубины.

Matrix-3D демонстрирует возможность создания всенаправленных 3D-миров из одного изображения с качеством, превосходящим существующие методы по всем ключевым метрикам. Технология применима в виртуальной реальности, разработке игр, обучении автономных транспортных средств и развитии embodied AI. Возможность «бесконечного исследования» позволяет пользователям генерировать новые сегменты сцены, меняя направление движения и создавая неограниченные виртуальные пространства.