State-of-the-art / Нейросети и глубокое обучение

Bonsai 27B: модель с 27 миллиардами параметров впервые запустили на смартфоне благодаря 1-битным весам

15 июля 2026

Bonsai 27B: модель с 27 миллиардами параметров впервые запустили на смартфоне благодаря 1-битным весам

Стартап PrismML, основанный исследователями из Caltech, представил Bonsai 27B — это бинарная и тернарная версии модели Qwen3.6-27B, которые сохраняют 90–95% качества исходной модели при сжатии весов в 9.4–14.2 раза. Тернарная…

MIRA: модель мира целиком симулирует Rocket League, не требуя установки самой игры

8 июля 2026

MIRA world model rocket league simulation AI

MIRA: модель мира целиком симулирует Rocket League, не требуя установки самой игры

Команды General Intuition, Kyutai и Epic Games представили MIRA — мировую модель (world model), которая целиком симулирует игровую среду Rocket League для четырёх игроков одновременно и рисует каждому свою картинку…

LFM2.5-230M: ультракомпактная модель работает на Raspberry Pi и почти любом современном телефоне

29 июня 2026

LFM2.5-230M: ультракомпактная модель работает на Raspberry Pi и почти любом современном телефоне

Команда Liquid AI выпустила LFM2.5-230M — одну из самых маленьких языковых моделей на сегодня, всего на 230 миллионов параметров. Она настолько компактная, что без проблем запускается на небольшом устройстве: ей…

DreamX-World 1.0: открытая модель генерации мира с контролем камеры, текстовым управлением и запоминанием локаций

17 июня 2026

DreamX-World 1.0: открытая модель генерации мира с контролем камеры, текстовым управлением и запоминанием локаций

Команда AMAP-ML опубликовала DreamX-World 1.0 — интерактивную генеративную модель мира, которая превращает текст или изображение в управляемое видео с точным контролем камеры, памятью о ранее посещённых сценах и поддержкой событий…

VibeThinker: 3B-модель рассуждает и кодит на уровне флагманских моделей

16 июня 2026

https://neurohive.io/ru/ii-v-marketinge/pochemu-socseti-blokirujut-67-multiakkaunterov-v-pervye-3-dnya-analiz-500-otchetov/

VibeThinker: 3B-модель рассуждает и кодит на уровне флагманских моделей

Команда Sina Weibo AI опубликовала VibeThinker-3B — компактную языковую модель всего с 3 миллиардами параметров, которая на задачах верифицируемых рассуждений (математика, программирование, STEM) вплотную приближается к результатам флагманских моделей DeepSeek…

ESM Cambrian: модель для предсказания и дизайна белков превзошла AlphaFold3 от Google и построила крупнейший атлас белкового мира

4 июня 2026

ESM Cambrian: модель для предсказания и дизайна белков превзошла AlphaFold3 от Google и построила крупнейший атлас белкового мира

Команда исследователей из Biohub опубликовала ESM Cambrian (ESMC) — языковую модель для предсказания и дизайна белков, которая обошла AlphaFold3 от Google по точности предсказания структур, спроектировала молекулы, которые крепко связываются…

LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров

28 мая 2026

LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров

Исследователи из Glint Lab, AIM for Health Lab и MVP Lab опубликовали LLaVA-OneVision-2 (LLaVA-OV-2) — мультимодальную модель нового поколения, которая переосмысливает то, как нейросеть «смотрит» видео. Вместо того чтобы нарезать видео…

LongLive-2.0: NVIDIA научила модель генерировать длинное видео в реальном времени с квантованием NVFP4

20 мая 2026

LongLive-2.0: NVIDIA научила модель генерировать длинное видео в реальном времени с квантованием NVFP4

Исследователи из NVIDIA опубликовали LongLive-2.0 — инфраструктуру для обучения и запуска моделей генерации длинного видео с использованием квантования до 4-битной точности NVFP4. Квантование — это сжатие весов модели за счёт…

SenseNova-U1: мультимодальная архитектура NEO-unify работает напрямую с пикселями без VAE

14 мая 2026

SenseNova-U1: мультимодальная архитектура NEO-unify работает напрямую с пикселями без VAE

Команда SenseNova представила новую мультимодальную архитектуру SenseNova-U1, которая объединяет понимание изображений, генерацию и редактирование внутри единого трансформера без отдельного визуального энкодера и вариационного автокодировщика. Такой подход убирает необходимость постоянно переводить…

OpenSeeker-v2: лучший в своем классе Deep Research агент, созданный академической командой всего на 10600 примерах

7 мая 2026

OpenSeeker-v2: лучший в своем классе Deep Research агент, созданный академической командой всего на 10600 примерах

Исследователи из Шанхайского университета Цзяо Тун доказали, что для создания лучшего в своём классе deep research агента не нужны сотни миллиардов токенов предобучения и дорогостоящее обучение с подкреплением. Достаточно 10…

OpenGame: ИИ-агент создает браузерные 2D-игры с нуля по текстовому описанию

22 апреля 2026

OpenGame: ИИ-агент создает браузерные 2D-игры с нуля по текстовому описанию

Команда исследователей из CUHK MMLab опубликовала OpenGame — первый агентный фреймворк для создания браузерных 2D-игр по текстовому описания. Проект полностью открытый: код фреймворка, веса модели GameCoder-27B и датасеты доступны на…

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

7 апреля 2026

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

Команда исследователей из Пекинского авиационного института, Шанхайского транспортного университета, Университета Манчестера и компании IQuest Research опубликовала InCoder-32B-Thinking — языковую модель с расширенной цепочкой рассуждений (chain-of-thought reasoning) для задач разработки кода…

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

3 апреля 2026

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

Компания Arcee AI выложила в открытый доступ Trinity-Large-Thinking — модель с рассуждениями для сложных многоходовых агентных задач. На PinchBench — главном бенчмарке для агентных задач — она занимает второе место…

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

31 марта 2026

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

Исследователи из Fudan University и StepFun опубликовали PixelSmile — диффузионную модель для точного редактирования мимики на портретах и аниме-изображениях. Вместо обучения на дискретных метках, например, «страх/не страх», модель использует непрерывные…

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

30 марта 2026

Realresorer image restoration open model 2

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

Команда исследователей из StepFun, Southern University of Science and Technology и Китайской академии наук опубликовала RealRestorer — открытую модель улучшения качества фотографий, которая умеет убирать размытость, шум, дождь, засветку от…

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

27 марта 2026

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

Команда из Shanghai Artificial Intelligence Laboratory и Пекинского университета опубликовала MinerU-Diffusion — фреймворк для распознавания текста в документах (OCR), который отказывается от классической авторегрессивной генерации в пользу диффузионного декодирования. Проект…

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

24 марта 2026

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео с липсинком и синхронное аудио и создает 5-секундный клип в 256p за…

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

11 марта 2026

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

Команда исследователей из Пекинского университета и ByteDance опубликовала Helios — авторегрессионную диффузионную трансформер-модель на 14 миллиардов параметров, которая генерирует видео со скоростью 19,5 кадров в секунду на одной видеокарте NVIDIA…

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

10 февраля 2026

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…