Обучение с подкреплением / Нейросети и глубокое обучение

OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу

17 марта 2026

OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу

Исследователи из Princeton University предложили фреймворк OpenClaw-RL, позволяющий ИИ-агенту улучшаться в режиме реального времени — без отдельного этапа сбора данных и без ручной разметки. Большинство RL-фреймворков для языковых моделей работают…

Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025

30 ноября 2025

Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025

Модель P1-235B-A22B от Shanghai AI Laboratory стала первой открытой моделью, которая получила золотую медаль на последней Международной физической олимпиаде IPhO 2025, набрав 21.2 балла из 30 и заняв третье место после…

MiroThinker v1.0: открытый ИИ-агент для исследований научился делать до 600 вызовов инструментов на задачу

20 ноября 2025

MiroThinker v1.0: открытый ИИ-агент для исследований научился делать до 600 вызовов инструментов на задачу

Команда MiroMind представила MiroThinker v1.0 — ИИ-агент для исследований, выполняющий до 600 вызовов инструментов на одну задачу при контекстном окне размером 256К токенов. На четырёх ключевых бенчмарках — GAIA, HLE,…

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

16 октября 2025

QeRL rainforcement learning quantization training speedup

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

QeRL — фреймворк для обучения языковых моделей методом обучения с подкреплением, который одновременно снижает требования к GPU и превосходит в точности традиционные методы LoRA и QLoRA. На модели Qwen2.5-7B-Instruct QeRL…

3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках

6 августа 2025

3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках

Исследователи из Шанхайского университета инженерных наук и Пекинского университета представили 3D-R1 — новую foundation-модель, которая значительно улучшает способности к рассуждению в трёхмерных vision-language моделях (VLM). Модель демонстрирует среднее улучшение производительности…

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

4 июня 2025

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

Исследовательская команда Microsoft Research представила On-Policy RL with Optimal reward baseline (OPO) — упрощенный алгоритм обучения с подкреплением для выравнивания больших языковых моделей. Новый метод решает ключевые проблемы современных RLHF…

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

9 мая 2025

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM…

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

21 апреля 2025

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…

MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

13 апреля 2025

MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

В последние годы был достигнут значительный прогресс в разработке как специализированных, так и универсальных моделей сегментации 2D медицинских изображений, однако область 3D и видеосегментации остается недостаточно исследованной. Группа исследователей из…

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

27 февраля 2025

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…

NVIDIA Eureka: агент для автономного обучения роботов

22 октября 2023

NVIDIA Eureka: агент для автономного обучения роботов

NVIDIA представила Eureka – агента на базе GPT-4 c открытым исходным кодом, обучающего роботов сложным навыкам, таким как выполнение трюков и работу с ножницами. Большие языковые модели ранее уже показали…

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

22 августа 2023

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

GPT-3.5 Turbo от OpenAI получил обновление, позволяющее разработчикам дообучать модель для использования в своих приложениях, что позволит разработчикам возможность максимально раскрыть потенциал GPT-3.5. Теперь разработчики могут делать тонкую настройку (finetuning)…

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

6 июня 2023

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic — это датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи StabilityAI и Тель-Авивского университета опубликовали датасет Pick-a-Pic…

OpenAI открыла API обновленной модели Davinci на базе GPT-3

30 ноября 2022

OpenAI открыла API обновленной модели Davinci на базе GPT-3

Новая версия Davinci — text-davinci-003 — получила высокие оценки пользователей в решении логических задач, прописывании мотивации персонажей, стилизации текста для конкретной аудитории и создании креативного контента. По словам разработчиков OpenAI,…

Машинное обучение применили для помощи анастезиологам

18 февраля 2022

Машинное обучение применили для помощи анастезиологам

Ученые MIT продемонстрировали алгоритм машинного обучения для непрерывной автоматизации дозирования анестезирующего препарата пропофола. Алгоритм может улучшить процесс отслеживания состояния пациентов во время операции. Используя обучение с подкреплением, в котором нейронные сети…

Обучение с подкреплением для контроля термоядерных реакций

17 февраля 2022

Обучение с подкреплением для контроля термоядерных реакций

DeepMind объявила о применении обучения с подкреплением для управления состоянием плазмы в ходе термоядерной реакции. Алгоритм DeepMind позволил повысить стабильность процесса управляемого термоядерного синтеза на токамаке. Ядерный синтез — многообещающий…

Модель обучили находить оптимальную схему лечения

4 февраля 2022

Модель обучили находить оптимальную схему лечения

Microsoft разработала алгоритм обучения с подкреплением, предлагающий для текущего состояния пациента наиболее эффективную тактику лечения. Модель нацелена на ускорение принятия решений в здравоохранении в условиях ограниченного количества медицинских данных. Модель…

Модель OpenAI генерирует краткие пересказы книг

28 сентября 2021

Модель OpenAI генерирует краткие пересказы книг

В OpenAI обучили нейросеть пересказывать содержание текста и целых книг. Модель основана на GPT-3 и использует метод рекурсивного разложения, то есть сначала создает пересказы небольших частей книги и затем объединяет…

7 сайтов датасетами в открытом доступе

2 сентября 2021

7 сайтов датасетами в открытом доступе

В статье приводится обзор сайтов, содержащих десятки тысяч датасетов в открытом доступе. Датасеты, представленные на данных ресурсах, покрывают такие области, как здравоохранение, география, социология, безопасность, транспорт и многие другие. Google…

Samsung использует искусственный интеллект для разработки чипов

19 августа 2021

Samsung использует искусственный интеллект для разработки чипов

Samsung использует систему искусственного интеллекта DSO.ai компании Synopsys для разработки нового поколения ARM-микропроцессоров Exynos, используемых в смартфонах компании. В Synopsys заявляют, что метод обучения с подкреплением позволяет более чем в…

Робота обучили передвигаться, как четвероногое животное

7 апреля 2020

Робота обучили передвигаться, как четвероногое животное

Исследователи из UC Berkley обучили робота имитировать поведение собаки с помощью обучения с подкреплением. Предложенный фреймворк масштабируется на другие виды животных. Модель получает на вход видеоролик с записью движения животного.…