RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.

Наиболее эффективные на текущий момент большие языковые модели либо полностью закрыты, либо доступны через API, что ограничивает исследование их возможностей, точную настройку и использование с конфиденциальными данными. Модели с полностью открытым исходным кодом могут устранить эти ограничения.

Проект RedPajama нацелен на создание воспроизводимой и полностью открытой языковой модели. RedPajama – коллаборация Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research и MILA Québec AI Institute.

Датасет содержит тексты из CommonCrawl (878 млрд токенов), датасета C4 (175 млрд), Github (59 млрд), книг (26 млрд), ArXiv (28 млрд), Википедии (24 млрд) и StackExchange (20 млрд). Данные из всех источников были отфильтрованы с учетом лицензионных ограничений. Дополнительно тексты были дедуплицированы на основе схожести содержания для поддержания высокого разнообразия выборки.

RedPajama представила две версии датасета – полную, с объемом в 1,2 трлн токенов, и ее уменьшенную версию c 1 млрд токенов, являющуюся случайной подвыборкой полной версии. Полный датасет содержит 5 ТБ данных.

Оба датасета можно загрузить через Hugging Face по ссылке.