Zyda: open source датасет объемом 1.3T для обучения языковых моделей
12 июня 2024
Zyda: open source датасет объемом 1.3T для обучения языковых моделей
Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…