LFM2.5-230M: ультракомпактная модель работает на Raspberry Pi и почти любом современном телефоне

Команда Liquid AI выпустила LFM2.5-230M — одну из самых маленьких языковых моделей на сегодня, всего на 230 миллионов параметров. Она настолько компактная, что без проблем запускается на небольшом устройстве: ей хватает 293 МБ памяти на Raspberry Pi 5 и 375 МБ на смартфоне. На Raspberry Pi 5 модель выдаёт 42 токена в секунду при декодировании, а на флагмане Galaxy S25 Ultra разгоняется до 213 токенов в секунду. Человек читает примерно 5–7 токенов в секунду, так что даже на дешёвом одноплатнике модель «печатает» ответ быстрее, чем вы успеваете его прочитать, а на смартфоне текст появляется почти мгновенно. На бенчмарках модель конкурирует с моделями вдвое больше и часто их обходит. Проект полностью открытый: базовую версию (LFM2.5-230M-Base) и дообученную (LFM2.5-230M) можно скачать на Hugging Face вместе с весами, исходники и SDK лежат на Github, а полная библиотека моделей описана в документации. Веса открытые, то есть модели можно скачивать, дообучать и разворачивать без ограничений.

Где она реально запускается

Главное ограничение модели простое: ей нужно около 293–375 МБ оперативной памяти и более-менее современный процессор.

Прямыми тестами авторов подтверждены четыре сценария: облачные GPU (H100), флагманский смартфон Galaxy S25 Ultra, одноплатник Raspberry Pi 5 и человекоподобный робот Unitree G1 через бортовой чип NVIDIA Jetson Orin. Заявлена поддержка чипов Apple, AMD, Qualcomm и Nvidia, так что круг шире. Раз модель идёт на Snapdragon Gen4 и на Raspberry Pi, её утянет почти любой современный телефон или планшет с 4+ ГБ памяти, а на ноутбуках, десктопах и серверах ресурсов с запасом. Тут упор будет не в память, а в скорость процессора.

А вот в серой зоне умные часы: на топовых моделях с 2 ГБ памяти и Snapdragon-чипом модель теоретически запустится, но в блоге таких тестов нет, и на практике мешает не память, а нагрев и батарея. На микроконтроллерах и простой бытовой электронике (чайники, лампочки, фитнес-браслеты, наушники) она не пойдёт: там память измеряется килобайтами, а не сотнями мегабайт, и разрыв в тысячу раз не закрыть никакой оптимизацией.

LFM2.5-230M построена на архитектуре LFM2, и за счёт этого работает заметно быстрее моделей того же размера, включая гибриды на основе SSM (state space models, модели пространства состояний) и Gated Delta Networks. Модель особенно хороша в двух вещах: вызов инструментов и извлечение данных.

При этом авторы честно предупреждают: для задач, где нужно много рассуждать — сложная математика, генерация кода, креативное письмо — эту модель брать не стоит. Она для другого.

Как обучали LFM2.5-230M

Модель предобучали (pre-training) на 19 триллионах токенов. Контекст модели — 32K.

Дальше идёт лёгкое дообучение (post-training) из трёх этапов. Сначала обучение с учителем (supervised fine-tuning) с дистилляцией знаний от старшей модели LFM2.5-350M, то есть маленькая модель училась повторять за большой. Потом прямая оптимизация по предпочтениям (direct preference optimization, DPO) — способ подстроить модель под то, какие ответы людям нравятся больше. И в конце обучение с подкреплением на нескольких доменах (multi-domain reinforcement learning), то есть сразу на разных типах задач. Такой рецепт нужен, чтобы модель хорошо работала «из коробки», но при этом её было легко дообучить под свою конкретную задачу.

Модель поставили на человекоподобного робота Unitree G1, и она работала целиком на самом устройстве, на встроенном чипе NVIDIA Jetson Orin. Модель выступила в качестве слоя выбора навыков: берёт одну команду на обычном языке вроде «постой 2 секунды, потом иди вперёд со скоростью 1 м/с на 3 метра» и раскладывает её на последовательность вызовов готовых низкоуровневых навыков. Получается, что модель на 230 миллионов параметров может служить языковым интерфейсом управления для робота.

Куда можно встроить модель

Для наглядности, на том же Raspberry Pi 5 уже работают вполне реальные роботы. Это и двуногий гуманоид TonyPi от Hiwonder, который ходит, наклоняется и поднимает предметы, и робособаки вроде PiDog, и колёсные платформы с лидаром и автономной навигацией (LanderPi, MentorPi, ROSMASTER X3). Pi 5 потянул всё это потому, что у него примерно втрое выше производительность процессора, чем у Pi 4, плюс слот под ИИ-ускоритель.

Языковая модель в таком роботе играет роль «мозга», который разбирает команды на обычном языке и раскладывает их на конкретные действия. Это как раз та задача, под которую заточена LFM2.5-230M. Liquid AI показала это на роботе Unitree G1, только он работает на более мощном чипе NVIDIA Jetson Orin, а не на Pi. Но раз модель помещается в 293 МБ на Raspberry Pi 5, ничто не мешает поставить её и на самодельного робота попроще.

Цифры на бенчмарках

Модель прогнали через десять бенчмарков. Главный результат: несмотря на размер, она конкурирует с моделями вдвое больше и часто их обходит. Тесты покрывают разные навыки: знания (GPQA Diamond, MMLU-Pro), следование инструкциям (IFEval, IFBench, Multi-IF), извлечение данных (CaseReportBench) и вызов инструментов (BFCLv3, BFCLv4, τ²-Bench Telecom и Retail).

На IFEval модель набрала 71.71, обойдя и Gemma 3 1B IT (63.49), и Qwen3.5-0.8B (59.94), хотя обе модели крупнее. На IFBench — 38.40 против 22.87 у Qwen и 20.33 у Gemma. На CaseReportBench (извлечение данных) — 22.51, что выше всех конкурентов кроме старшей модели той же семьи. Слабое место видно на τ²-Bench Telecom: всего 5.26, тут модель проседает. На MMLU-Pro она тоже уступает Qwen3.5-0.8B (20.25 против 37.42) — сказывается компактный размер.

Вывод авторов: LFM2.5-230M отлично подходит для крупных пайплайнов извлечения данных или лёгких агентских задач прямо на устройстве.

Насколько она быстрая

Модель поддерживается всей основной экосистемой инференса с первого дня: llama.cpp (GGUF-чекпойнты для edge), MLX (для чипов Apple), vLLM и SGLang (для серверов на GPU), ONNX (для разных ускорителей).

На CPU цифры такие (раздел Fast Inference Everywhere): на Raspberry Pi 5 модель выдаёт 523 токена в секунду на предзаполнении (prefill) и 42 на декодировании, занимая всего 293 МБ памяти, что меньше, чем у всех конкурентов. На Snapdragon Gen4 (Galaxy S25 Ultra) — 1158 токенов на prefill и 213 на decode при 375 МБ памяти. Prefill — это обработка входного текста, а decode — пошаговая генерация ответа, токен за токеном.

На GPU H100 у модели самая низкая задержка на всех уровнях параллелизма: от примерно 50 мс при одном запросе до около 205 мс при 64 одновременных запросах. Для сравнения, Qwen3.5-0.8B на тех же 64 запросах доходит до примерно 530 мс.

С кем она конкурирует по компактности

Класс моделей меньше 500M параметров узкий, но не пустой:

SmolLM2-135M и SmolLM2-360M от Hugging Face (135M и 360M параметров, обучены на 2T и 4T токенов);
Qwen2.5-0.5B от Alibaba (около 500M, поддерживает контекст до 128K и 29 языков);
Qwen2-0.5B (тоже примерно 300M без учёта эмбеддингов);
Granite 4.0-350M от IBM (350M, в обычной и гибридной версии H).

По бенчмаркам LFM2.5-230M держится уверенно. Granite 4.0-H-350M она обходит по большинству тестов из блога, будучи при этом меньше: на IFEval — 71.71 против 61.27. Для сравнения, SmolLM2-Instruct на том же IFEval набирает около 56.7, хотя SmolLM2 хороша в следовании инструкциям для своего размера и обходит на этом тесте даже Qwen2.5-1.5B. В своём весе LFM2.5-230M выглядит сильным игроком.

Все остальные «маленькие» модели, которые на слуху, заметно крупнее: Gemma 3 1B, Qwen3.5-0.8B и Llama 3.2 1B — это от 800M до миллиарда параметров, то есть в 3.5–4.3 раза больше LFM2.5-230M. Так что прямых соперников ровно в её весе немного, и большинство из них — это совсем компактные семейства вроде SmolLM2 и линейка Granite от IBM.

Что в итоге

LFM2.5-230M — это ставка Liquid AI на edge AI, то есть на ИИ, который работает прямо на устройстве, а не в облаке. Модель открытая, быстрая, занимает мало памяти и хорошо справляется с вызовом инструментов и извлечением данных. Это часть целого семейства LFM2.5, куда входят и базовые модели для кастомизации, и специализированные аудио- и визуальные варианты на одной архитектуре. Для рассуждений и кода она не предназначена, но как лёгкий движок для агентских задач на телефоне или одноплатнике выглядит убедительно.