LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов
13 июля 2023
LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов
Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста. Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA…