
Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Основное различие между реальной поисковой системой и симуляции LLM заключается в стиле возвращаемого контента. Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.
Поиск информации в сети помогает улучшать способности к рассуждению и генерации LLM. Свежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.
Ключевая инновация
ZEROSEARCH предлагает практическое решение: фреймворк обучения с подкреплением, который улучшает поисковые способности LLM без необходимости взаимодействия с реальными поисковыми системами.
Техническая реализация
Фреймворк Zerosearch включает три ключевых компонента:
- Обучение симуляции поиска: через supervised fine-tuning исследователи трансформируют LLM в модули извлечения, способные генерировать как релевантные, так и нерелевантные документы. LLM генерирует либо релевантные, либо шумовые документы путем настройки нескольких слов в промпте, что приводит к правильным или неправильным ответам.
Шаблон для симуляции поиска — Показан шаблон промпта, используемый для контроля качества документов с помощью ключевых слов useful/noisy (полезный/шумовой). - Стратегия curriculum-based rollout. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, подвергая её всё более сложным сценариям извлечения информации.
Исследование циклов взаимодействия — Показано, как изменяются количество циклов взаимодействия и прогресс награды во время обучения. - Экономическая эффективность. ZEROSEARCH снижает затраты на обучение по сравнению с использованием коммерческих поисковых API. Хотя реализация подхода требует GPU-инфраструктуры, анализ показывает, что он снижает затраты на обучение примерно на 88% по сравнению с использованием коммерческих поисковых систем при одинаковом количестве итераций обучения.

Количественные результаты
Эффективность ZEROSEARCH подтверждается эмпирическими данными:
- Модуль извлечения с 7B параметров достигает производительности, сравнимой с использованием реальной поисковой системы;
- Модуль извлечения с 14B параметров превосходит производительность реальной поисковой системы на нескольких бенчмарках;
- Фреймворк эффективно обобщается как на базовых, так и на instruction-tuned моделях различных размеров.

Сравнение результатов применения фреймворка на различных LLM в качестве базовых моделей. Лучшие результаты выделены жирным шрифтом:
Практическое применение
Подход предлагает несколько практических преимуществ:
- Контроль над обучением. При использовании реальных поисковых систем качество возвращаемых документов непредсказуемо. С симулированным поиском разработчики могут точно контролировать, какую информацию AI встречает во время обучения, что приводит к более надежным и стабильным результатам.
- Гибкость фреймворка. ZEROSEARCH совместим с широко используемыми алгоритмами RL: Proximal Policy Optimization (PPO), Group Relative Policy Optimization (GRPO) и Reinforce++.
- Снижение зависимостей. Техника предполагает будущее, где AI-системы могут развивать все более сложные возможности через симуляцию, а не полагаться на внешние сервисы, потенциально изменяя экономику разработки AI и снижая зависимость от крупных технологических платформ.
Этот основанный на доказательствах подход к обучению LLM с поисковыми возможностями представляет жизнеспособную альтернативу традиционным методам, с документально подтвержденными улучшениями в производительности, экономической эффективности и стабильности обучения.