RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.


neurohive telegram

Наиболее эффективные на текущий момент большие языковые модели либо полностью закрыты, либо доступны через API, что ограничивает исследование их возможностей, точную настройку и использование с конфиденциальными данными. Модели с полностью открытым исходным кодом могут устранить эти ограничения.

Проект RedPajama нацелен на создание воспроизводимой и полностью открытой языковой модели. RedPajama – коллаборация Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research и MILA Québec AI Institute.

Датасет содержит тексты из CommonCrawl (878 млрд токенов), датасета C4 (175 млрд), Github (59 млрд), книг (26 млрд), ArXiv (28 млрд), Википедии (24 млрд) и StackExchange (20 млрд). Данные из всех источников были отфильтрованы с учетом лицензионных ограничений. Дополнительно тексты были дедуплицированы на основе схожести содержания для поддержания высокого разнообразия выборки.

RedPajama представила две версии датасета – полную, с объемом в 1,2 трлн токенов, и ее уменьшенную версию c 1 млрд токенов, являющуюся случайной подвыборкой полной версии. Полный датасет содержит 5 ТБ данных.

Оба датасета можно загрузить через Hugging Face по ссылке.

Подписаться
Уведомить о
guest


0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt