VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

VBVR dataset

Команда из более чем 50 исследователей со всего мира — из Berkeley, Stanford, CMU, Oxford и других университетов — опубликовала Very Big Video Reasoning (VBVR) — огромный набор данных для обучения видеомоделей рассуждению. Это первый датасет такого масштаба, который учит видеомодели не просто генерировать последовательность кадров, а думать — решать задачи на пространство, физику, абстракцию и логику. На основе датасета авторы создали бенчмарк VBVR-Bench, который проверяет способность видеомоделей рассуждать. Дообученная на датасете VBVR открытая модель Wan2.2 превзошла все закрытые коммерческие модели, включая Sora 2 и Veo 3.1, в рассуждениях. Проект полностью открытый: датасет, веса обученной модели, код бенчмарка и генераторы задач доступны на GitHub и Hugging Face.

Зачем это вообще нужно?

Современные видеомодели — Sora, Veo, Kling, Wan — умеют делать потрясающе реалистичные ролики. Но если попросить их решить задачу на навигацию в лабиринте или симулировать физику мяча, они не справляются. Проблема не в генерации — проблема в рассуждении. А данных для обучения именно этому навыку почти не было: все существующие датасеты вместе взятые содержали около 12 800 примеров. VBVR — это 2 015 000 примеров. Разница примерно в 157 раз.

Как устроена таксономия задач

Авторы не просто набрали случайных задач. Они опёрлись на когнитивную науку — от Аристотеля до современной нейронауки — и выделили пять фундаментальных способностей человеческого разума, которые и легли в основу датасета.

  • Восприятие (Perception) — это умение вытащить структуру из сенсорного потока: определить цвет, форму, найти уникальный объект среди одинаковых.
  • Трансформация (Transformation) — манипуляция с ментальными представлениями: вращение объектов в уме, предсказание траектории.
  • Пространственность (Spatiality) — навигация, понимание геометрических отношений между объектами.
  • Абстракция (Abstraction) — нахождение закономерностей и применение правил: матрицы Равена и задачи на сортировку.
  • Знание (Knowledge) — применение фактов о мире: законы физики, поведение жидкостей, чтение часов.

Примеры задач из VBVR по пяти когнитивным способностям

Как генерируются данные

Вместо ручной разметки авторы написали параметрические генераторы — программы, которые создают задачи автоматически. Каждый генератор принимает набор параметров — размер сетки, количество объектов, расположение препятствий — и выдаёт четыре компонента: начальный кадр (first_frame.png), текстовую инструкцию (prompt.txt), финальный кадр (final_frame.png) и правильное решение в формате видео (ground_truth.mp4). Решение вычисляется алгоритмически — например, через поиск кратчайшего пути методом поиска в ширину.

Генерация запускается параллельно на 990 серверах AWS Lambda одновременно. Миллион примеров они генерируют примерно за 2–4 часа при стоимости около 800–1200 долларов за запуск. Каждый пример автоматически проверяется: существует ли решение, не перекрываются ли объекты, читается ли текст. Процент ошибок — меньше 1%.

Схема пайплайна генерации данных: от когнитивной архитектуры через генераторы к облачному хранилищу
Задачи проектируются на основе когнитивной архитектуры, реализуются как генераторы, затем запускаются параллельно через облачную очередь сообщений и сохраняются в S3

150 из 200 типов задач уже в открытом доступе, оставшиеся 50 придержали для честного лидерборда — чтобы никто не мог натренировать модель специально под бенчмарк.

Как оценивают модели

VBVR-Bench — это оценочный фреймворк, у которого есть одно принципиальное отличие от большинства аналогов: никаких LLM-судей. Оценка полностью детерминированная и основанная на правилах (rule-based). Для задачи на навигацию проверяется, дошёл ли агент до цели, не прошёл ли сквозь стены, насколько оптимальный путь выбрал. Для каждой из 100 тестовых задач — свой оценочный модуль с весами для разных критериев.

Чтобы убедиться, что автоматические оценки совпадают с человеческими суждениями, авторы провели масштабный эксперимент: аннотаторы смотрели видео и ставили оценки по трём критериям — выполнена ли задача, корректна ли логика рассуждений, хорошее ли качество видео. Корреляция Спирмена между автоматическими метриками и человеческими оценками — ρ > 0,93 для in-domain задач и ρ > 0,98 для out-of-domain. Это очень высокие значения.

Анализ соответствия VBVR-Bench человеческим предпочтениям: scatter plots с корреляцией Спирмена

Результаты

Итоги неутешительные для существующих моделей, но обнадёживающие для дообученной версии. Среди открытых моделей лучший результат у Wan2.2-I2V-A14B — 0,371 из 1,0. Среди закрытых лидирует Sora 2 с результатом 0,546, за ней Veo 3.1 с 0,480. Человеческий baseline — 0,974. Разрыв колоссальный.

Но когда авторы дообучили Wan2.2 на датасете VBVR с помощью LoRA адаптера с rank=32, результат вырос до 0,685 — это улучшение на 84,6% относительно базовой модели. VBVR-Wan2.2 обгоняет все остальные модели, включая закрытые коммерческие.

Модель Overall In-Domain Out-of-Domain
Human baseline 0.974 0.960 0.988
VBVR-Wan2.2 (fine-tuned) 0.685 0.760 0.610
Sora 2 0.546 0.569 0.523
Veo 3.1 0.480 0.531 0.429
Runway Gen-4 0.403 0.392 0.414
Wan2.2 (base) 0.371 0.412 0.329

Как растёт качество с увеличением данных

Авторы обучали модель на разных объёмах данных — от 0 до 500 000 примеров — и смотрели, как меняется результат. Результаты показали: от 0 до 200K примеров прирост очень заметный (с 0,412 до 0,767 на in-domain задачах). После 200K кривая выходит на плато и начинает колебаться. Это говорит о том, что просто добавить больше данных того же типа недостаточно — нужны архитектурные изменения или принципиально новые типы задач.

Важный момент: и in-domain, и out-of-domain результаты растут вместе, что указывает на реальное обобщение, а не просто запоминание. Разрыв между ними остаётся около 15%, и это следующая большая проблема для исследователей.

Качественное сравнение VBVR-Wan2.2 и Sora 2 на задачах из трёх панелей
Блок A: сравнение VBVR-Wan2.2 и Sora 2 на трёх задачах управляемого выполнения — удаление символа, геометрическое вращение, перестановка книг. Блок B: эмерджентное поведение VBVR-Wan2.2. Блок C: честные ограничения — задачи, где модель всё ещё проваливается.

Интересные паттерны в способностях моделей

Авторы обнаружили нетривиальную структуру в том, какие когнитивные способности развиваются вместе. После того как убрали общий фактор «силы модели» (модели, которые сильнее в целом, сильнее везде), то оказалось, что Knowledge и Spatiality сильно коррелируют (ρ = 0,461). Это перекликается с нейронаукой. В мозге есть гиппокамп — область, которая отвечает за навигацию в пространстве. Там живут два типа нейронов: «клетки места» (place cells) — они активируются, когда ты находишься в конкретной точке пространства, и «клетки сетки» (grid cells) — они создают что-то вроде внутренней координатной карты мира. Нобелевскую премию за их открытие дали в 2014 году. Но оказалось, что тот же гиппокамп нужен не только для навигации — пациенты с его повреждениями хуже усваивают абстрактные концепции и факты. То есть пространственное мышление и накопление знаний в мозге завязаны на одну и ту же структуру. Похожий паттерн авторы обнаружили и у видеомоделей: те из них, что лучше справляются с пространственными задачами, как правило, лучше и в задачах на знание фактов.

Knowledge и Perception, напротив, отрицательно коррелируют (ρ = −0,757): модели, которые хорошо «знают факты», хуже воспринимают сенсорную информацию напрямую.

Матрица корреляций между пятью когнитивными способностями моделей
Тепловая карта корреляций Пирсона между пятью когнитивными способностями после вычитания общего фактора силы модели. Синий — положительная корреляция, красный — отрицательная

Главный вывод: controllability — фундамент рассуждения

Качественное сравнение на задачах, которые модель не видела во время обучения, показывает разницу наглядно. После дообучения VBVR-Wan2.2 научилась делать «ровно то, что попросили» — удалить символ без лишних изменений, повернуть объект вокруг нужной точки, а не вместе с рамкой. Sora 2 на тех же задачах добавляла лишние операции или теряла контроль над сценой. Это говорит о том, что controllability — способность точно следовать ограничениям — это предпосылка для верифицируемого рассуждения, а не отдельная опциональная фича.

VBVR — это не просто датасет, это инфраструктура: генераторы задач можно расширять, новые типы задач добавлять через стандартизированный шаблон, а бенчмарк будет обновляться вместе с полем. Всё это делает его бенчмарком, который не устареет сразу после публикации.


neurohive telegram
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии