Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров
4 ноября 2025
Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров
Команда исследователей из Center for AI Safety и Scale AI опубликовала Remote Labor Index (RLI) — первый бенчмарк, который проверяет, могут ли ИИ-агенты делать настоящую работу фрилансеров. Они собрали 240…
Что происходит с видео в TikTok после публикации и как алгоритмы ИИ влияют на видимость роликов
4 ноября 2025
Что происходит с видео в TikTok после публикации и как алгоритмы ИИ влияют на видимость роликов
Загрузили ролик в ТікТок и видите всего несколько просмотров? Не спешите паниковать и удалять контент. Платформа использует сложную систему искусственного интеллекта, которая анализирует каждое видео перед тем, как показать его…
DTM: новая аппаратная архитектура снижает энергопотребление до 10000 раз по сравнению с GPU
1 ноября 2025
DTM: новая аппаратная архитектура снижает энергопотребление до 10000 раз по сравнению с GPU
Исследователи из Extropic Corporation представили эффективную аппаратную архитектуру для вероятностных вычислений, основанную на Denoising Thermodynamic Models (DTM). Анализ показывает, что устройства на базе этой архитектуры могут достичь паритета производительности с…
От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен
31 октября 2025
От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен
Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) больших языковых моделей после генерации всего одного токена. Метод позволяет оптимизировать вычислительные затраты через досрочное прерывание генерации или…
Ditto: открытый фреймворк для редактирования стиля и объектов на видео по текстовым инструкциям с 99% согласованностью кадров
24 октября 2025
Ditto: открытый фреймворк для редактирования стиля и объектов на видео по текстовым инструкциям с 99% согласованностью кадров
Исследователи из HKUST, Ant Group, Zhejiang University и Northeastern University представили Ditto — комплексный открытый фреймворк для решения проблемы дефицита обучающих данных в редактировании видео по текстовым инструкциям. Разработчики создали…
QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности
16 октября 2025
QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности
QeRL — фреймворк для обучения языковых моделей методом обучения с подкреплением, который одновременно снижает требования к GPU и превосходит в точности традиционные методы LoRA и QLoRA. На модели Qwen2.5-7B-Instruct QeRL…
Kimi-K2 и Qwen3-235B — лучшие нейросети для торговли акциями на бирже, выяснили китайские исследователи
10 октября 2025
Kimi-K2 и Qwen3-235B — лучшие нейросети для торговли акциями на бирже, выяснили китайские исследователи
Исследователи из Китая провели масштабное сравнение способностей нейросетей для торговли акциями на реальных рыночных данных. ИИ-агенты управляли портфелем из 20 акций индекса Dow Jones на бирже в течение 4 месяцев…
MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках
2 октября 2025
MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках
MinerU2.5 — компактная vision-language модель с 1.2 миллиардами параметров для парсинга PDF документов, представленная командой Shanghai Artificial Intelligence Laboratory. Модель достигает state-of-the-art результатов в парсинге PDF при минимальных вычислительных затратах…
LongLive — 1.3B модель генерации видео со скоростью 20.7 FPS, позволяющая управлять сценарием в реальном времени
30 сентября 2025
LongLive — 1.3B модель генерации видео со скоростью 20.7 FPS, позволяющая управлять сценарием в реальном времени
Команда исследователей из NVIDIA, MIT и других институтов представила LongLive — фреймворк для генерации длинных видео в реальном времени, которые позволяет управлять сюжетом по ходу создания ролика. В отличие от…
Гибридный токенизатор изображений: новый подход Apple к созданию мультимодальных моделей
22 сентября 2025
Гибридный токенизатор изображений: новый подход Apple к созданию мультимодальных моделей
Команда исследователей Apple представила Manzano — унифицированную мультимодальную большую языковую модель, которая объединяет возможности понимания и генерации визуального контента через гибридный токенизатор изображений и тщательно подобранную стратегию обучения. Авторегрессивная модель…
WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках
17 сентября 2025
WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках
Исследователи из Tongyi Lab (Alibaba Group) представили WebWeaver — открытый двухагентный фреймворк для глубоких исследований, который симулирует человеческий исследовательский процесс. Фреймворк состоит из планировщика, который итеративно чередует веб-поиск источников и…
Mini-o3: открытая мультимодальная 7B-модель превзошла GPT-4o в визуальном поиске благодаря 30-шаговым цепочкам рассуждений
10 сентября 2025
Mini-o3: открытая мультимодальная 7B-модель превзошла GPT-4o в визуальном поиске благодаря 30-шаговым цепочкам рассуждений
Исследователи из ByteDance и Университета Гонконга представили Mini-o3 — мультимодальную модель, которая выполняет глубокие многошаговые рассуждения для решения сложных задач визуального поиска. Mini-o3 достигает SOTA результатов на сложных бенчмарках, превосходя…
Google представила Gemini 2.5 Flash Image aka Nano Banana — новую модель генерации изображений
26 августа 2025
Google представила Gemini 2.5 Flash Image aka Nano Banana — новую модель генерации изображений
Google представила Gemini 2.5 Flash Image (с внутренним кодовым названием nano-banana) — модель для генерации и редактирования изображений. Модель поддерживает комбинирование нескольких изображений в одно, сохраняет консистентность персонажей между генерациями,…
Реставрация старых фото онлайн: топ-8 нейросетей
25 августа 2025
Реставрация старых фото онлайн: топ-8 нейросетей
В жизни часто возникают ситуации, когда необходимо освежить старые фото: улучшить четкость, удалить царапины, желтизну и прочие следы времени. Самый легкий путь – это реставрация старых фото онлайн, то есть…
RRNCB — первый российский открытый бенчмарк для оценки RAG-моделей
25 августа 2025
RRNCB — первый российский открытый бенчмарк для оценки RAG-моделей
RRNCB (Russian RAG Normative — Corporate Benchmark) — первый российский открытый бенчмарк для комплексной оценки RAG-моделей при работе с нормативной, правовой и технической документацией компаний. RRNCB адаптирован под специфику русскоязычных…
Nemotron Nano 2 9B: модель от NVIDIA обходит Qwen3-8B на бенчмарках, работает в 6 раз быстрее и поддерживает контекст 128k
20 августа 2025
Nemotron Nano 2 9B: модель от NVIDIA обходит Qwen3-8B на бенчмарках, работает в 6 раз быстрее и поддерживает контекст 128k
Команда исследователей NVIDIA представила Nemotron-Nano-9B-v2 — гибридную Mamba-Transformer языковую модель, которая выдает ответы в 6 раз быстрее Qwen-3-8B на задачах рассуждения, превосходя ее в точности. Модель с 9 миллиардами параметров…
Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения
14 августа 2025
Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения
Исследователи из Skywork AI, Гонконгского университета науки и технологий представили Matrix-3D — фреймворк для создания полностью исследуемых трехмерных миров из одного изображения или текстового описания. Matrix-3D решает проблему ограниченного поля…
3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках
6 августа 2025
3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках
Исследователи из Шанхайского университета инженерных наук и Пекинского университета представили 3D-R1 — новую foundation-модель, которая значительно улучшает способности к рассуждению в трёхмерных vision-language моделях (VLM). Модель демонстрирует среднее улучшение производительности…
Seed Diffusion: новый state-of-the-art в балансе скорость-качество для моделей генерации кода
6 августа 2025
Seed Diffusion: новый state-of-the-art в балансе скорость-качество для моделей генерации кода
Команда исследователей ByteDance Seed совместно с Институтом AIR Университета Цинхуа представила Seed Diffusion Preview — языковую модель на основе дискретной диффузии, демонстрирующую рекордную скорость инференса. Модель достигает 2,146 токенов в…
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач
25 июля 2025
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач
Большие языковые модели хорошо справляются с математическими бенчмарками вроде AIME, однако задачи Международной математической олимпиады (IMO) требуют глубокого понимания, креативности и формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro…
Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения
11 июля 2025
Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения
Исследователи из Show Lab Национального университета Сингапура и ByteDance представили Show-o2 — второе поколение мультимодальной модели, которая демонстрирует превосходные результаты в задачах понимания и генерации изображений и видео. Show-o2 использует…




















