Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

Llama 2 update

Новое поколение моделей Llama — это три большие языковые модели Llama 2 c 7, 13 и 70 миллиардами параметров, и дообученные для ведения диалогов модели Llama-2-Chat 7B, 34B и 70B. Модели доступны open source для исследовательских и коммерческих целей, кроме модели Llama 2 34B — она была обучена, но не опубликована исследователями. Ответы моделей оценивались по двум показателям: полезность и безопасность ответов, и результаты превзошли все state-of-the-art модели с открытым исходным кодом. В сравнении с ChatGPT результаты Llama-2-Chat 70B находятся в пределах доверительного интервала отклонения.

Модель была опубликована 18 июля, в первый же день после релиза количество запросов к серверам модели превысило ожидания и на данный загрузки модели необходимо оставить заявку и дождаться своей очереди.

Подробнее о моделях LLama 2 и Llama-2-Chat

Сначала исследователи обучили модель Llama 2 без учителя на корпусах текстов из общедоступных онлайн-ресурсов. Для обучения использовалось на 40% больше данных, чем для первого поколения Llama, а контекст увеличился до 4000 токенов. Затем модель дообучалась с учителем для тонкой настройки предсказания.

Llama-2 and Llama-2-chat learning
Процесс обучения моделей LLama-2 и Llama-2-Chat

Последующая итеративная настройка модели проходила по методу обучения с подкреплением на основе обратной связи от пользователей (RLHF) с использованием методов Выборка с отклонением и Proximal Policy Optimization, добавляющего шум для избежания локального минимума. Ключевая идея обучения — итеративное накопление данных модели вознаграждения параллельно с улучшением модели, чтобы гарантировать результаты в пределах распределения.

Модель вознаграждения принимает ответ модели и соответствующую подсказку (включая контексты из предыдущих обращений) в качестве входных данных и выдает скалярный показатель качества (полезность и безопасность) ответов модели. Используя такие оценки ответов в качестве вознаграждений, ответы Llama-2-Chat оптимизировались для лучшего соответствия предпочтениям людей.

Результаты

Результаты оценки людьми ответов модели Llama-2-Chat по сравнению с открытыми и закрытыми моделями на примерно 4 000 подсказок о полезности с тремя экспертами-оценщиками на каждую подсказку:

Llama-2-chat results

Модели Llama 2-Chat с отрывом превосходят модели с открытым кодом как на одиночных подсказках, так и на подсказках c длинным контекстом. В частности, модель Llama 2-Chat 7B превосходит MPT-7B-chat на 60% подсказок. Модель Llama 2-Chat 34B в 75% случаев превосходит результаты ответов эквивалентных моделей Vicuna-33B и Falcon 40B.

Самая крупная модель Llama 2-Chat конкурентоспособна с ChatGPT. Модель Llama 2-Chat 70B показала лучший результат в 36% случаев, показатель ничьих — 31,5% по сравнению с ChatGPT.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt