Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на 88%

Диаграмма процесса обучения Visual-ARFT
Примеры из бенчмарка MAT: разнообразные задачи для оценки агентных способностей в поиске и программировании

Исследовательская группа из Шанхайского университета Цзяо Тонг и Шанхайской лаборатории искусственного интеллекта представила Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) — новый подход к обучению крупных мультимодальных моделей агентным возможностям. Методика демонстрирует значительные улучшения в способности моделей использовать внешние инструменты для решения сложных визуальных задач. Код доступен на Github.

Архитектура Visual-ARFT: интеграция
Архитектура Visual-ARFT: интеграция обучения с подкреплением и верифицируемых вознаграждений для мультимодальных агентных систем

Ключевая инновация

Visual-ARFT решает критический пробел в развитии мультимодальных систем искусственного интеллекта. В то время как языковые модели достигли значительного прогресса в агентных способностях, включая вызов функций и интеграцию инструментов, развитие мультимодальных агентных возможностей остается менее изученным.

Фреймворк применяет обучение с подкреплением на основе верифицируемых вознаграждений для обучения Large Vision-Language Models (LVLM) двум критически важным сценариям:

Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.

Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

примеры
Примеры работы Visual-ARFT: агентный поиск и агентное программирование с пошаговым процессом решения задач

Техническая реализация

Система вознаграждений

Visual-ARFT использует модульную систему верифицируемых вознаграждений:

Format Reward обеспечивает соблюдение предопределенного формата выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.

Accuracy Rewards оценивают качество окончательных ответов с использованием F1-score, семантическое сходство для поисковых запросов и выполнимость сгенерированного кода.

Алгоритм обучения

Исследователи применяют Group Relative Policy Optimization (GRPO) для обновления политики модели на основе обратной связи от вознаграждений. KL-дивергенция предотвращает чрезмерное отклонение обновленной политики от референсной модели.

Диаграмма процесса обучения Visual-ARFT
Диаграмма процесса обучения Visual-ARFT с различными типами искажений изображений и соответствующими решениями

Multimodal Agentic Tool Bench (MAT)

Для поддержки обучения и оценки команда представила MAT — бенчмарк, включающий два подмножества:

MAT-Search: 150 высококачественных мультимодальных многошаговых VQA примеров, требующих внешнего поиска знаний.

MAT-Coding: 200 примеров с различными типами искажений изображений (поворот, затемнение, размытие, шум), требующих предварительной обработки через код.

Диаграмма процесса обучения Visual-ARFT
Примеры из бенчмарка MAT: разнообразные задачи для оценки агентных способностей в поиске и программировании

Количественные результаты

Эффективность Visual-ARFT подтверждается впечатляющими эмпирическими данными:

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.

На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

При оценке на внешних многошаговых QA бенчмарках Visual-ARFT показывает устойчивую генерализацию с приростом +29.3% F1 и +25.9% EM на 2WikiMultihopQA и HotpotQA.

Сравнительная таблица результатов: Visual-ARFT демонстрирует значительные улучшения по всем метрикам оценки
Сравнительная таблица результатов: Visual-ARFT демонстрирует значительные улучшения по всем метрикам оценки

Экономическая эффективность

Visual-ARFT предлагает значительные преимущества в стоимости обучения. Хотя реализация требует GPU-инфраструктуры, подход снижает затраты на обучение примерно на 88% по сравнению с использованием коммерческих поисковых систем при равном количестве итераций обучения.

Практическое применение

Подход демонстрирует несколько ключевых преимуществ:

Контроль процесса обучения: разработчики могут точно контролировать информацию, с которой AI сталкивается во время обучения, что приводит к более надежным результатам.

Гибкость фреймворка: Visual-ARFT совместим с широко используемыми алгоритмами RL, включая PPO, GRPO и Reinforce++.

Снижение зависимостей: техника указывает на будущее, где AI-системы могут развивать сложные возможности через симуляцию, уменьшая зависимость от внешних сервисов.

Схема практического применения Visual-ARFT в различных областях: образование, научный анализ, автоматизация рабочих процессов
Визуализация процесса inference Visual-ARFT: пошаговое решение мультимодальных задач через агентные возможности

Будущие направления

Visual-ARFT представляет многообещающий путь к созданию робастных и обобщаемых мультимодальных агентов. Подход демонстрирует, что эффективное обучение агентным способностям возможно с минимальными аннотированными данными — всего 20 примеров для агентного поиска и 1200 для агентного программирования.

Исследование открывает новые возможности для развития open-source мультимодальных AI-агентов с сильными способностями к рассуждению и использованию инструментов, потенциально изменяя экономику разработки AI и снижая зависимость от крупных технологических платформ.

Этот основанный на доказательствах подход к обучению LVLM с агентными возможностями представляет жизнеспособную альтернативу традиционным методам, с документально подтвержденными улучшениями в производительности, экономической эффективности и стабильности обучения.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt