ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Основное различие между реальной поисковой системой и симуляции LLM заключается в стиле возвращаемого контента. Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.

Поиск информации в сети помогает улучшать способности к рассуждению и генерации LLM. Свежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.

Ключевая инновация

ZEROSEARCH предлагает практическое решение: фреймворк обучения с подкреплением, который улучшает поисковые способности LLM без необходимости взаимодействия с реальными поисковыми системами.

Техническая реализация

Фреймворк Zerosearch включает три ключевых компонента:

Обучение симуляции поиска: через supervised fine-tuning исследователи трансформируют LLM в модули извлечения, способные генерировать как релевантные, так и нерелевантные документы. LLM генерирует либо релевантные, либо шумовые документы путем настройки нескольких слов в промпте, что приводит к правильным или неправильным ответам.
Шаблон для симуляции поиска — Показан шаблон промпта, используемый для контроля качества документов с помощью ключевых слов useful/noisy (полезный/шумовой).
Стратегия curriculum-based rollout. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, подвергая её всё более сложным сценариям извлечения информации.
Исследование циклов взаимодействия — Показано, как изменяются количество циклов взаимодействия и прогресс награды во время обучения.
Экономическая эффективность. ZEROSEARCH снижает затраты на обучение по сравнению с использованием коммерческих поисковых API. Хотя реализация подхода требует GPU-инфраструктуры, анализ показывает, что он снижает затраты на обучение примерно на 88% по сравнению с использованием коммерческих поисковых систем при одинаковом количестве итераций обучения.

Сравнение стоимости метода ZEROSEARCH. — Сравнение стоимости между реальной поисковой системой и симулированным подходом.

Количественные результаты

Эффективность ZEROSEARCH подтверждается эмпирическими данными:

Модуль извлечения с 7B параметров достигает производительности, сравнимой с использованием реальной поисковой системы;
Модуль извлечения с 14B параметров превосходит производительность реальной поисковой системы на нескольких бенчмарках;
Фреймворк эффективно обобщается как на базовых, так и на instruction-tuned моделях различных размеров.

Сравнение кривых награды между ZEROSEARCH и Search-R1 . Показаны преимущества стабильности ZEROSEARCH.

Сравнение результатов применения фреймворка на различных LLM в качестве базовых моделей. Лучшие результаты выделены жирным шрифтом:

Практическое применение

Подход предлагает несколько практических преимуществ:

Контроль над обучением. При использовании реальных поисковых систем качество возвращаемых документов непредсказуемо. С симулированным поиском разработчики могут точно контролировать, какую информацию AI встречает во время обучения, что приводит к более надежным и стабильным результатам.
Гибкость фреймворка. ZEROSEARCH совместим с широко используемыми алгоритмами RL: Proximal Policy Optimization (PPO), Group Relative Policy Optimization (GRPO) и Reinforce++.
Снижение зависимостей. Техника предполагает будущее, где AI-системы могут развивать все более сложные возможности через симуляцию, а не полагаться на внешние сервисы, потенциально изменяя экономику разработки AI и снижая зависимость от крупных технологических платформ.

Этот основанный на доказательствах подход к обучению LLM с поисковыми возможностями представляет жизнеспособную альтернативу традиционным методам, с документально подтвержденными улучшениями в производительности, экономической эффективности и стабильности обучения.