Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

falcon 180b model intro

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена на 3,5 триллионах токенов с использованием датасета RefinedWeb. Falcon содержит 180 миллиардов параметров — в 2,6 раза больше, чем у предыдущего лидера — Llama 70B, что потребует 8 Nvidia A100 GPU и 400GB пространства для инференса. Демо модели можно потестировать на HuggingFace, там же доступен и код модели.

Архитектура и обучение модели

Falcon 180B — дообученная модель Falcon 40B, использует multi-query механизм внимания для улучшенной масштабируемости. Схема ванильного многоголового (multi-head) внимания имеет один запрос (query), ключ (key) и значение (value) на каждую голову (head); в то время как множественный запрос (multiquery) вместо этого использует один ключ и значение для всех «голов».

multi-query-attention

Модель обучалась на 4096 GPU, что потребовало около 7 000 000 часов GPU на Amazon SageMaker. По сравнению с Llama 2, для обучения Falcon 180B использовалось в 4 раза больше вычислительной мощности.

Датасет для Falcon 180B в основном состоит из веб-данных из набора данных RefinedWeb (~85%). Также использовались отобранные данные: диалоги, технические статьи и код, что делает его универсальной моделью для задач NLP (~3%).

Результаты Falcon 180B

Falcon 180B results

Falcon 180B превосходит Llama 2 70B и GPT-3.5 от OpenAI на бенчмарке MMLU, уступая GPT-4. Также она успешно конкурирует с проприетарной PaLM 2-Large от Google на бенчмарках HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC и ReCoRD:

Falcon PALM2 comparison
Сравнение точности ответов семейства моделей PALM и Falcon 180B

Хотя Falcon 180B доступен на Hugging Face Hub, его коммерческое использование очень ограничено. Рекомендуется ознакомиться с лицензией и проконсультироваться с юридическими службами для коммерческих целей.

Подписаться
Уведомить о
guest

8 Comments
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Liss

Галлюционирует на первом же вопросе. После пятого скатывается на бред, состоящий из бессмысленного набора слогов.

Константин

Да, тот же результат.

Jho B.

Возможно вы провоцируете модель, задавая ей галлюцинирующие вопросы. А как известно в профессиональных кругах, каков вопрос таков и ответ.

Юра

Не знаю, gpt 3.0 было сложновато заставить тупить. Не знаю как дела обстоят сейчас.

Владислав

Та же самая ерунда. Попросил его рассказать о себе, а он мне в ответ и говорит, что создан компанией Yandex. На русском языке работает ужасно. Короче, то, что он превосходит… Подробнее »

Erxfhv

По русски тупит жестко, но на английском норм. На русском хуже чембыл davinci-002

Data scientist

Почему-то по ссылке недоступен интерфейс модели, чтобы задать вопрос. Где смотреть?


gogpt