R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и рассуждениях.

Модель связывает визуальное восприятие и логический вывод с помощью нового подхода, основанного на формальном языке. R1-Onevision преобразует информацию на основе пикселей в структурированные представления, о которых можно систематически рассуждать.

Исследователи опубликовали в открытом доступе датасет R1-Onevision, бенчмарк и модель. Все ресурсы доступны на GitHub, Hugging Face, есть веб-демо.

Техническая архитектура модели

R1-Onevision построена на базе архитектуры Qwen2.5-VL-Instruct и была разработана с использованием библиотеки с открытым исходным кодом LLama-Factory с оптимизированными параметрами для задач на рассуждение.

Первый ключевой компонент метода — построение датасета R1-Onevision.

Процесс создания датасета состоит из четырех стадий:

различные типы изображений были собраны и отфильтрованы по качеству и релевантности для задач рассуждения;
изображения прошли формальную аннотацию с использованием комбинации инструментов: GPT-4o для создания текстовых подписей и перевода визуальных элементов в формальные представления, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
модель DeepSeek-R1 сгенерировала начальные рассуждения Chain-of-Thought на основе формальных текстовых описаний. Ролевой подход имитировал визуальное понимание путем итеративного уточнения.
GPT-4o выполняет контроль качества для фильтрации цепочек рассуждения, содержащих логические ошибки или несоответствия.

Полученный датасет содержит структурированные записи с уникальными идентификаторами, путями к изображениям, эталонными значениями, источниками данных, диалогами, фильтрами валидности и метриками оценки качества.

R1 onevision dataset — Распределение данных в датасете

Фреймворк обучения с подкреплением на основе правил (Rule-Based RL), второй ключевой компонент метода, совершенствует процесс рассуждения модели путем внедрения явных правил оценки точности и структуры ответов. Этот подход объединяет сильные стороны обучения с подкреплением с инструкциями на основе правил и состоит из 5 компонентов:

Основа: процесс начинается с модели, которая уже прошла Supervised Fine-Tuning (SFT) на датасете R1-Onevision. Это обеспечивает базовые возможности для мультимодальных рассуждений.
Интеграция правил: вместо использования общих моделей вознаграждения или обратной связи от людей (как в типичных подходах RLHF), эта система включает явные, специфичные для предметной области правила, которые определяют верное рассуждение.
Проверка структуры рассуждения: правила гарантируют, что модель следует логическим шагам в связной последовательности, делает обоснованные математические или научные выводы, поддерживает последовательные схемы рассуждения, приходит к точным заключениям.
Проверка точности и формата, корректности вычислений, принципов логических рассуждений, структуры и правильности интерпретации информации.
Процесс обучения: во время обучения модель получает вознаграждения, когда она придерживается этих правил, и штрафы, когда нет, постепенно оптимизируя свои процессы рассуждения в соответствии с принципами структурированного мышления.

Ключевое преимущество этого подхода заключается в том, что он оптимизирует не просто общую производительность, а конкретно нацелен на возможности структурированного рассуждения, необходимые для решения сложных визуально-математических задач. Кодируя экспертные знания в форме правил, модель учится следовать схемам рассуждения, которые доказали свою эффективность при решении сложных задач.

Диаграмма иллюстрирует пайплайн разработки модели R1-Onevision, разделенный на две основные фазы:

r1 onevision architecture — Верхняя часть показывает процесс создания датасета, нижняя часть изображает рабочий процесс обучения модели.

Результаты и сравнения

R1-Onevision демонстрирует производительность, превосходящую GPT-4o, GPT-4V и Qwen2.5-VL-7B на нескольких бенчмарках:

На R1-Onevision-Bench: R1-Onevision достигла показателя 41.71, значительно превосходя GPT-4o (32.07) и Qwen2.5-VL-7B (27.95)
На Mathverse: R1-Onevision получила 44.06, превосходя GPT-4o (43.22), GPT-4V (39.40) и Qwen2.5-VL-7B (37.35)
На Mathvision: R1-Onevision достигла 26.16, показывая результаты между GPT-4o (30.39) и GPT-4V (22.76)

Модель демонстрирует особые сильные стороны в распознавании закономерностей, решении математических задач, рассуждениях в геометрии, физических расчетах, анализе схем и алгоритмических задачах. Документированные примеры показывают ее способность систематически прорабатывать сложные цепочки рассуждений для достижения точных выводов в различных проблемных областях.

Эти результаты подтверждают эффективность подхода к визуальным рассуждениям на основе формального языка и Rule-Based RL в улучшении возможностей мультимодальных рассуждений за пределами возможностей state-of-the-art моделей.