DeepEyesV2: мультимодальная модель научилась использовать инструменты для решения сложных задач

Исследователи из компании Xiaohongshu представили DeepEyesV2 — агентную мультимодальную модель на базе Qwen2.5-VL-7B, которая умеет не просто понимать текст и изображения, но и активно использовать внешние инструменты: выполнять код на Python и искать информацию в интернете. В отличие от существующих моделей, работающих либо только с изображениями, либо только с поиском, DeepEyesV2 объединяет оба подхода в единый цикл рассуждений.

Проект полностью открыт. Исследователи опубликовали веса обученной модели на HuggingFace, код обучения под лицензией Apache в GitHub репозитории, а также полностью открыли обучающие датасеты: Cold Start данные и RL датасет. В экспериментах также протестированы модели на базе Qwen2.5-VL-32B, демонстрирующие применимость подхода к более крупным моделям.

Проблема существующих подходов

Современные мультимодальные языковые модели (MLLM) хорошо понимают изображения и текст, но остаются пассивными. Они не могут самостоятельно вызывать инструменты для работы с изображениями или получения актуальной информации из интернета.

Например, если попросить модель определить вид цветка на фотографии, простая модель попытается ответить на основе своих знаний и часто ошибется. DeepEyes (предыдущая версия) научилась обрезать нужную область для детального анализа, но не могла проверить ответ через поиск. MMSearch-R1 умеет искать в интернете, но плохо работает с мелкими деталями. А DeepEyesV2 сначала обрежет область с цветком, потом найдет похожие изображения через поиск, затем проверит информацию текстовым запросом — и только после этого даст точный ответ.

Как устроена DeepEyesV2

DeepEyesV2 работает циклически: модель сама решает, когда и какие инструменты вызывать, получает результаты и интегрирует их в процесс рассуждения.

DeepEyesV2 вызывает инструменты и включает результаты их работы в последующие этапы рассуждения.

Доступные инструменты включают выполнение Python-кода для работы с изображениями и данными (обрезка, численный анализ, разметка), поиск по изображению через SerpAPI (топ-5 визуально похожих результатов) и текстовый поиск (топ-5 релевантных веб-страниц).

Почему прямое обучение с подкреплением не работает

Исследователи сначала попробовали обучить модель Qwen2.5-VL напрямую через обучение с подкреплением (RL). Результат оказался неожиданным: на ранних этапах модель генерировала код с ошибками, затем постепенно отказывалась от инструментов и выдавала только короткие рассуждения.

Эксперименты показали необходимость этапа холодного старта

После добавления бонуса за использование инструментов модель начала генерировать один блок неисполняемых комментариев на каждый запрос — классический пример reward hacking. Этот эксперимент показал: существующие модели не могут надежно научиться использовать сложные инструменты через прямое RL. Им нужна предварительная подготовка — холодный старт.

Двухэтапное обучение

Этап 1: Холодный старт

Исследователи собрали датасет, охватывающий задачи восприятия, рассуждения и поиска. Датасет прошел строгую фильтрацию: оставили только вопросы, с которыми базовая модель справляется максимум в 2 случаях из 8 попыток, и проверили пользу инструментов.

Данные разделили на два подмножества. Примеры, решенные с инструментами, отложили для RL. Более сложные примеры использовали для холодного старта, сгенерировав для них подробные траектории с помощью продвинутых моделей (Gemini 2.5 Pro, GPT-4o, Claude Sonnet 4). После supervised fine-tuning модель приобрела базовые паттерны использования инструментов.

Этап 2: Обучение с подкреплением

После холодного старта применили RL для дальнейшего улучшения. Функция награды включала награду за точность и штраф за нарушение формата. Важно, что не использовали сложные техники — только две простые метрики.

Согласно документации DeepEyesV2, для обучения требуются значительные вычислительные ресурсы.

Минимальные требования для 7B версии:

Минимум 32 GPU (4 ноды по 8 GPU каждая);
Минимум 1200 GB оперативной памяти CPU на каждую ноду;

Причина высоких требований к RAM: изображения высокого разрешения потребляют большой объем памяти.

Для 32B версии:

Минимум 64 GPU (8 нод по 8 GPU);
Те же требования по RAM (1200 GB на ноду).

RealX-Bench: новый бенчмарк

Существующие бенчмарки оценивают модели по отдельным способностям, но в реальных задачах они должны работать совместно. Исследователи создали RealX-Bench — бенчмарк для оценки координированной работы восприятия, поиска и рассуждения.

Статистика RealX-Bench по доменам и типам способностей — Статистика RealX-Bench: 24% вопросов требуют интеграции всех трех способностей одновременно.

RealX-Bench содержит 300 пар вопрос-ответ из пяти реальных доменов. По уровню сложности: 164 вопроса требуют восприятия, 178 — рассуждения, 211 — поиска. 72 вопроса (24%) одновременно сложны во всех трех аспектах. Даже лучшая модель (Gemini 2.5 Pro) достигает только 46.0% точности, что далеко от человеческого уровня (70.0%).

Результаты экспериментов

DeepEyesV2 показала впечатляющие результаты на трех категориях бенчмарков.

RealX-Bench: 28.3% средней точности (+6.0 п.п. выше базовой модели). На подмножестве интеграции всех трех способностей: 18.1% против 6.9% (+8.4 п.п.):

Понимание реального мира. Улучшения от +0.1 до +8.7 процентных пунктов на бенчмарках V*Bench, HRBench, MME-RealWorld и других. На некоторых бенчмарках DeepEyesV2 (7B) превосходит даже Qwen2.5-VL-32B:

Математическое рассуждение. На MathVerse прирост +7.1 п.п. (до 52.7%), превосходя как общие модели, так и специализированные для рассуждений:

Поиск информации. На MMSearch 63.7% (+11.5 п.п.), значительно опережая специализированную MMSearch-R1 (53.8%):

Анализ поведения модели

DeepEyesV2 демонстрирует четкие адаптивные паттерны. В задачах на восприятие использует обрезку изображений, в математических задачах — вычисления, в поисковых — инструменты поиска. После RL модель начинает интегрировать разные типы инструментов, например, комбинирует обрезку с поиском.

До RL модель чрезмерно полагалась на инструменты. После RL частота вызовов снизилась, но модель научилась адаптивному рассуждению: решает простые задачи напрямую, но использует инструменты когда это полезно.

Анализ данных показал, что разнообразие данных критически важно: комбинирование данных восприятия, рассуждения и длинных цепочек рассуждений дает лучшие результаты.

Главный вывод исследования: несмотря на отличные результаты на академических тестах, до уровня реальной работы агентным моделям еще далеко. RealX-Bench дает конкретные метрики для отслеживания прогресса. Датасет будут расширять, а методологию адаптировать под улучшающиеся модели.