3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках
6 августа 2025
3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках
Исследователи из Шанхайского университета инженерных наук и Пекинского университета представили 3D-R1 — новую foundation-модель, которая значительно улучшает способности к рассуждению в трёхмерных vision-language моделях (VLM). Модель демонстрирует среднее улучшение производительности…
Seed Diffusion: новый state-of-the-art в балансе скорость-качество для моделей генерации кода
6 августа 2025
Seed Diffusion: новый state-of-the-art в балансе скорость-качество для моделей генерации кода
Команда исследователей ByteDance Seed совместно с Институтом AIR Университета Цинхуа представила Seed Diffusion Preview — языковую модель на основе дискретной диффузии, демонстрирующую рекордную скорость инференса. Модель достигает 2,146 токенов в…
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач
25 июля 2025
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач
Большие языковые модели хорошо справляются с математическими бенчмарками вроде AIME, однако задачи Международной математической олимпиады (IMO) требуют глубокого понимания, креативности и формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro…
Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения
11 июля 2025
Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения
Исследователи из Show Lab Национального университета Сингапура и ByteDance представили Show-o2 — второе поколение мультимодальной модели, которая демонстрирует превосходные результаты в задачах понимания и генерации изображений и видео. Show-o2 использует…
Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%
8 июля 2025
Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%
Исследователи из Sakana AI представили Adaptive Branching Monte Carlo Tree Search (AB-MCTS) — революционный подход к созданию «команд мечты» из больших языковых моделей, который позволяет им динамически сотрудничать для решения…
MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса
15 июня 2025
MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса
Команда исследователей OpenBMB представила MiniCPM4 — высокоэффективную языковую модель, разработанную специально для локальных устройств. MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (81.13 против 80.55), при этом для обучения требуется в 4.5…
Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF
4 июня 2025
Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF
Исследовательская команда Microsoft Research представила On-Policy RL with Optimal reward baseline (OPO) — упрощенный алгоритм обучения с подкреплением для выравнивания больших языковых моделей. Новый метод решает ключевые проблемы современных RLHF…
NVIDIA Canary достигла 90% точности предсказания временных меток в синхронном переводе
28 мая 2025
NVIDIA Canary достигла 90% точности предсказания временных меток в синхронном переводе
Исследовательская команда NVIDIA представила подход для генерации временных меток на уровне слов в модели синхронного перевода Canary. Точная информация о времени критически важна для создания синхронизированных субтитров. Исследователи опубликовали код…
Mistral Agents API: фреймворк для создания AI-агентов с веб-поиском, генерирующих код и изображения
28 мая 2025
Mistral Agents API: фреймворк для создания AI-агентов с веб-поиском, генерирующих код и изображения
Французский стартап Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны…
Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах
22 мая 2025
Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах
Исследовательская группа из Шанхайского университета Цзяо Тонг и Шанхайской лаборатории искусственного интеллекта представила Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) — новый подход к обучению крупных мультимодальных моделей агентным возможностям. Методика демонстрирует…
NVIDIA Isaac 5.0: обучение роботов с продвинутой физикой сенсоров и генерацией синтетических данных с открытым кодом
19 мая 2025
NVIDIA Isaac 5.0: обучение роботов с продвинутой физикой сенсоров и генерацией синтетических данных с открытым кодом
NVIDIA представила обновления своей экосистемы Isaac для разработки роботов на выставке COMPUTEX 2025, которые улучшают возможности генерации синтетических данных и совершенствуют тестирование моделей на всех этапах разработки. Isaac Sim 5.0:…
ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%
9 мая 2025
ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%
Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM…
Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения
4 мая 2025
Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения
Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая демонстрирует исключительную производительность на сложных задачах рассуждения, превосходя модели, превышающие её по размеру в 5-47 раз, и требуя значительно меньше вычислительных…
DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent
21 апреля 2025
DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent
Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…
MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео
13 апреля 2025
MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео
В последние годы был достигнут значительный прогресс в разработке как специализированных, так и универсальных моделей сегментации 2D медицинских изображений, однако область 3D и видеосегментации остается недостаточно исследованной. Группа исследователей из…
Fractal TechDocs: русскоязычный ИИ-ассистент для работы с техдокументацией для инженеров и проектировщиков
9 апреля 2025
Fractal TechDocs: русскоязычный ИИ-ассистент для работы с техдокументацией для инженеров и проектировщиков
ИИ-стартап Аватар Машина выпустил Fractal TechDocs — ИИ-ассистента для строителей, инженеров, архитекторов и проектировщиков, которым требуется точная работа с нормативными документами: ГОСТы, СП, СНиПы. В эпоху ChatGPT и других универсальных…
Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах
3 апреля 2025
Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах
Anthropic выпустил версию Claude для образования, разработанную специально для внедрения в университеты и другие высшие учебные заведения. В то время как классический чат-бот выдает прямые ответы на вопросы, Claude for…
Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике
19 марта 2025
Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике
NVIDIA анонсировала семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Дообучение моделей Llama 3.3 и 3.1 позволило Nvidia улучшить их точность на 20% при достижении в 5…
Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%
11 марта 2025
Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%
Chain-of-Experts (CoE) — новый подход, фундаментально изменяющий обработку информации в разреженных языковых моделях (sparse language models), увеличивающий производительность модели при значительно меньшем потреблении памяти. Метод решает ключевые ограничения Mixture-of-Experts моделей,…
R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике
27 февраля 2025
R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике
Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…
Step-Video-T2V: генератор видео из текста с коэффициентом сжатия 16x
20 февраля 2025
Step-Video-T2V: генератор видео из текста с коэффициентом сжатия 16x
Исследователи из Stepfun AI представили Step-Video-T2V, text-to-video модель с 30 миллиардами параметров, способную генерировать видео длиной до 204 кадров, с разрешением 544×992. Модель принимает промпты на китайском и английском языках.…