Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена на 3,5 триллионах токенов с использованием датасета RefinedWeb. Falcon содержит 180 миллиардов параметров — в 2,6 раза больше, чем у предыдущего лидера — Llama 70B, что потребует 8 Nvidia A100 GPU и 400GB пространства для инференса. Демо модели можно потестировать на HuggingFace, там же доступен и код модели.

Архитектура и обучение модели

Falcon 180B — дообученная модель Falcon 40B, использует multi-query механизм внимания для улучшенной масштабируемости. Схема ванильного многоголового (multi-head) внимания имеет один запрос (query), ключ (key) и значение (value) на каждую голову (head); в то время как множественный запрос (multiquery) вместо этого использует один ключ и значение для всех «голов».

Модель обучалась на 4096 GPU, что потребовало около 7 000 000 часов GPU на Amazon SageMaker. По сравнению с Llama 2, для обучения Falcon 180B использовалось в 4 раза больше вычислительной мощности.

Датасет для Falcon 180B в основном состоит из веб-данных из набора данных RefinedWeb (~85%). Также использовались отобранные данные: диалоги, технические статьи и код, что делает его универсальной моделью для задач NLP (~3%).

Результаты Falcon 180B

Falcon 180B превосходит Llama 2 70B и GPT-3.5 от OpenAI на бенчмарке MMLU, уступая GPT-4. Также она успешно конкурирует с проприетарной PaLM 2-Large от Google на бенчмарках HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC и ReCoRD:

Falcon PALM2 comparison — Сравнение точности ответов семейства моделей PALM и Falcon 180B

Хотя Falcon 180B доступен на Hugging Face Hub, его коммерческое использование очень ограничено. Рекомендуется ознакомиться с лицензией и проконсультироваться с юридическими службами для коммерческих целей.

Автор: Stanislav Isakov

Источник: https://huggingface.co/blog/falcon-180b

8 Comments

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Liss

1 год назад

Галлюционирует на первом же вопросе. После пятого скатывается на бред, состоящий из бессмысленного набора слогов.

Ответить

Константин

Ответить на Liss

1 год назад

Да, тот же результат.

Ответить

Jho B.

Ответить на Liss

1 год назад

Возможно вы провоцируете модель, задавая ей галлюцинирующие вопросы. А как известно в профессиональных кругах, каков вопрос таков и ответ.

Ответить

Юра

Ответить на Jho B.

1 год назад

Не знаю, gpt 3.0 было сложновато заставить тупить. Не знаю как дела обстоят сейчас.

Ответить

Владислав

Ответить на Liss

1 год назад

Та же самая ерунда. Попросил его рассказать о себе, а он мне в ответ и говорит, что создан компанией Yandex. На русском языке работает ужасно. Короче, то, что он превосходит… Подробнее »

Ответить