Языковые модели / Нейросети и глубокое обучение

Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

8 июля 2025

Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

Исследователи из Sakana AI представили Adaptive Branching Monte Carlo Tree Search (AB-MCTS) — революционный подход к созданию «команд мечты» из больших языковых моделей, который позволяет им динамически сотрудничать для решения…

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

15 июня 2025

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

Команда исследователей OpenBMB представила MiniCPM4 — высокоэффективную языковую модель, разработанную специально для локальных устройств. MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (81.13 против 80.55), при этом для обучения требуется в 4.5…

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

4 июня 2025

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

Исследовательская команда Microsoft Research представила On-Policy RL with Optimal reward baseline (OPO) — упрощенный алгоритм обучения с подкреплением для выравнивания больших языковых моделей. Новый метод решает ключевые проблемы современных RLHF…

Mistral Agents API: фреймворк для создания AI-агентов с веб-поиском, генерирующих код и изображения

28 мая 2025

Mistral Agents API: фреймворк для создания AI-агентов с веб-поиском, генерирующих код и изображения

Французский стартап Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны…

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

22 мая 2025

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследовательская группа из Шанхайского университета Цзяо Тонг и Шанхайской лаборатории искусственного интеллекта представила Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) — новый подход к обучению крупных мультимодальных моделей агентным возможностям. Методика демонстрирует…

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

9 мая 2025

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM…

Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения

4 мая 2025

Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения

Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая демонстрирует исключительную производительность на сложных задачах рассуждения, превосходя модели, превышающие её по размеру в 5-47 раз, и требуя значительно меньше вычислительных…

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

21 апреля 2025

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…

Fractal TechDocs: русскоязычный ИИ-ассистент для работы с техдокументацией для инженеров и проектировщиков

9 апреля 2025

$fractalgpt assitant AI$

Fractal TechDocs: русскоязычный ИИ-ассистент для работы с техдокументацией для инженеров и проектировщиков

ИИ-стартап Аватар Машина выпустил Fractal TechDocs — ИИ-ассистента для строителей, инженеров, архитекторов и проектировщиков, которым требуется точная работа с нормативными документами: ГОСТы, СП, СНиПы. В эпоху ChatGPT и других универсальных…

Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах

3 апреля 2025

Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах

Anthropic выпустил версию Claude для образования, разработанную специально для внедрения в университеты и другие высшие учебные заведения. В то время как классический чат-бот выдает прямые ответы на вопросы, Claude for…

Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

11 марта 2025

Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

Chain-of-Experts (CoE) — новый подход, фундаментально изменяющий обработку информации в разреженных языковых моделях (sparse language models), увеличивающий производительность модели при значительно меньшем потреблении памяти. Метод решает ключевые ограничения Mixture-of-Experts моделей,…

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

27 февраля 2025

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…

На каком языке «мыслят» большие языковые модели

30 января 2025

На каком языке «мыслят» большие языковые модели

Новое исследование EPFL проливает свет на внутренние механизмы обработки многоязычных данных в LLM, что критично для понимания принципов работы современных языковых моделей и их оптимизации. Исследователи применили метод Logit lens…

MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

15 января 2025

MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

MiniMax выложил в open source модели MiniMax-01 с 456 миллиардами параметров: MiniMax-Text-01 для текстовых и MiniMax-VL-01 для визуально-языковых задач. MiniMax-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом,…

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

16 ноября 2024

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, специально разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель…

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

30 сентября 2024

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

MinerU — open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU автоматизирует извлечение текста, формул, таблиц и изображений из документов, таких как…