
Исследователи из Skywork AI, Гонконгского университета науки и технологий представили Matrix-3D — фреймворк для создания полностью исследуемых трехмерных миров из одного изображения или текстового описания. Matrix-3D решает проблему ограниченного поля зрения существующих методов генерации 3D-сцен, позволяя получать 360-градусный обзор без артефактов границ. Код моделей доступен на Github.
Matrix-3D поддерживает готовый пайплайн для генерации 3D-мира в несколько шагов или одной командой. Пользователи могут скачать контрольные точки и запустить автоматическую генерацию, либо пройти процесс поэтапно: сначала преобразовать текст или изображение в панорамное фото, затем создать панорамное видео с разрешением 960 × 480 или 1440 × 720, и на финальном этапе реконструировать 3D-сцену одним из двух методов — оптимизационным для максимального качества или feed-forward для более быстрой обработки. Полученные сцены сохраняются в формате .ply вместе с рендерингами.
Архитектура фреймворка
Фреймворк построен на базе видео-диффузионной модели Wan2.1-I2V-14B. Обучение проводилось на 200K видеоклипов по 81 кадру с learning rate 1×10^-4 и batch size 21. Модели обучались в разрешениях 480×960 и 720×1440.

Matrix-3D использует панорамные изображения как промежуточное представление сцены, захватывая полный обзор 360° × 180°. Фреймворк состоит из трех компонентов: генерации панорамного видео с управляемой траекторией, реконструкции сцены через mesh-рендеринг и преобразования в 3D-мир через два альтернативных подхода.
Основное отличие от предыдущих работ — использование mesh-рендеров вместо облаков точек. Эксперименты показали, что рендеры облаков точек создают муаровые паттерны и некорректно обрабатывают окклюзии между объектами. Mesh-представление устраняет эти геометрические артефакты, что подтверждается количественными метриками: PSNR увеличился с 23.4 до 23.8, FVD снизился с 260 до 242.

Методы 3D-реконструкции
Matrix-3D предлагает два подхода к преобразованию панорамного видео в 3D-мир.
Оптимизационный метод выбирает ключевые кадры каждые 5 кадров из сгенерированного видео. Каждый панорамный кадр разбивается на 12 перспективных изображений, которые проходят через super-resolution (StableSR) перед подачей в пайплайн 3D Gaussian Splatting. Глубина оценивается через MoGe с последующим выравниванием через метод наименьших квадратов.
Feed-forward модель (Large Panorama Reconstruction Model) работает напрямую с латентными представлениями видео размером t×h×w×c. Архитектура включает:
- Patchify модули для преобразования в токены;
- 4 блока трансформеров для захвата глобального контекста;
- DPT head для предсказания гауссовских атрибутов;
- 3D-деконволюцию для увеличения разрешения по временному измерению.

Модель обучается в два этапа: сначала предсказание глубины с harmonic loss, затем остальные атрибуты Gaussian с комбинацией MSE и LPIPS потерь.
Датасет Matrix-Pano
Команда создала Matrix-Pano — синтетический датасет из 116,759 панорамных видеопоследовательностей с разрешением 1024×2048. Каждая последовательность содержит 81 кадр, траектории движения камеры, карты глубины и текстовые описания. Датасет создавался в Unreal Engine 5 на основе 504 3D-сцен.
Процесс генерации данных включал:
- Автоматическую генерацию траекторий через алгоритм Дейкстры с последующим сглаживанием Лапласа;
- Фильтрацию путей короче 18 метров для достаточной временной динамики;
- Детекцию коллизий через bounding box алгоритм;
- Двухэтапную проверку качества: автоматическую через Video-LLaMA3 и ручную валидацию первых кадров.
Результаты Matrix-3D и сравнения на бенчмарках
Количественные результаты:
Качественное сравнение 3D-реконструкции: ODGS (слева), Matrix-3D feed-forward (центр), Matrix-3D оптимизация (справа) и ground truth. Оптимизационный метод достигает наилучшего визуального качества:
Ограничения
Генерация требует 40 ГБ видеопамяти для разрешения 480p и 60 ГБ для 720p. В ближайшее время планируется выпуск облегчённой версии, позволяющей создавать 720p-контент при 24 ГБ VRAM, что сделает её совместимой с видеокартами уровня NVIDIA RTX 4090.
Текущие ограничения:
- Время генерации одной сцены составляет десятки минут;
- Неестественные переходы глубины в полупрозрачных областях (деревья, заборы);
- Латентное представление видео не содержит явных геометрических признаков, что усложняет предсказание глубины.
Matrix-3D демонстрирует возможность создания всенаправленных 3D-миров из одного изображения с качеством, превосходящим существующие методы по всем ключевым метрикам. Технология применима в виртуальной реальности, разработке игр, обучении автономных транспортных средств и развитии embodied AI. Возможность «бесконечного исследования» позволяет пользователям генерировать новые сегменты сцены, меняя направление движения и создавая неограниченные виртуальные пространства.