DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

21 апреля 2025
deepmath reasoning dataset ai

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…

MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

13 апреля 2025
medsam2 human in the loop

MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

В последние годы был достигнут значительный прогресс в разработке как специализированных, так и универсальных моделей сегментации 2D медицинских изображений, однако область 3D и видеосегментации остается недостаточно исследованной. Группа исследователей из…

Fractal TechDocs: русскоязычный ИИ-ассистент для работы с техдокументацией для инженеров и проектировщиков

9 апреля 2025
fractalgpt assitant AI

Fractal TechDocs: русскоязычный ИИ-ассистент для работы с техдокументацией для инженеров и проектировщиков

ИИ-стартап Аватар Машина выпустил Fractal TechDocs — ИИ-ассистента для строителей, инженеров, архитекторов и проектировщиков, которым требуется точная работа с нормативными документами: ГОСТы, СП, СНиПы. В эпоху ChatGPT и других универсальных…

Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах

3 апреля 2025
claude education

Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах

Anthropic выпустил версию Claude для образования, разработанную специально для внедрения в университеты и другие высшие учебные заведения. В то время как классический чат-бот выдает прямые ответы на вопросы, Claude for…

Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике

19 марта 2025
llama nemotron 3.3

Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике

NVIDIA анонсировала семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Дообучение моделей Llama 3.3 и 3.1 позволило Nvidia улучшить их точность на 20% при достижении в 5…

Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

11 марта 2025
CoE

Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

Chain-of-Experts (CoE) — новый подход, фундаментально изменяющий обработку информации в разреженных языковых моделях (sparse language models), увеличивающий производительность модели при значительно меньшем потреблении памяти. Метод решает ключевые ограничения Mixture-of-Experts моделей,…

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

27 февраля 2025
r1 demo

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…

Step-Video-T2V: генератор видео из текста с коэффициентом сжатия 16x

20 февраля 2025

Step-Video-T2V: генератор видео из текста с коэффициентом сжатия 16x

Исследователи из Stepfun AI представили Step-Video-T2V, text-to-video модель с 30 миллиардами параметров, способную генерировать видео длиной до 204 кадров, с разрешением 544×992. Модель принимает промпты на китайском и английском языках.…

Adobe Firefly: первое коммерчески безопасная модель для генерации видео

13 февраля 2025
adobe firefly model

Adobe Firefly: первое коммерчески безопасная модель для генерации видео

Adobe выпустила модель генерации видео Firefly в открытый доступ. Firefly Video была разработана специально для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами и юридической безопасностью сгенерированного…

На каком языке «мыслят» большие языковые модели

30 января 2025
unnamed

На каком языке «мыслят» большие языковые модели

Новое исследование EPFL проливает свет на внутренние механизмы обработки многоязычных данных в LLM, что критично для понимания принципов работы современных языковых моделей и их оптимизации. Исследователи применили метод Logit lens…

Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

19 января 2025
ta-titok and maskgen research

Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к созданию доступных и эффективных text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image…

MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

15 января 2025

MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

MiniMax выложил в open source модели MiniMax-01 с 456 миллиардами параметров: MiniMax-Text-01 для текстовых и MiniMax-VL-01 для визуально-языковых задач. MiniMax-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом,…

На CES 2025 Nvidia представила серию GPU RTX 50 и микросервисы NIM для локального запуска ИИ-пайплайнов

7 января 2025
nvidia update ces 2025

На CES 2025 Nvidia представила серию GPU RTX 50 и микросервисы NIM для локального запуска ИИ-пайплайнов

Nvidia анонсировала крупное обновление на выставке CES 2025, включающее новые графические процессоры RTX 50 и микросервисами NIM для локального развертывания крупных моделей от таких провайдеров, как Black Forest Labs, Meta…

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

18 декабря 2024
Enhancing Text-to-Image Generation

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

Исследователи Alibaba Group представили фреймворк ArtAug для улучшения качества генерации изображений из текста без дополнительных вычислительных затрат на этапе инференса, используя взаимодействие между генеративными и понимающими (understanding) моделями. Архитектура ArtAug…

Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

10 декабря 2024
SORA AI video generation model goes public

Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

OpenAI объявила о публичном релизе Sora Turbo, значительно улучшенной версии своей гиперреалистичной text-to-video, image-to-video и video-to-video модели. Презентация прошла на конференции «12 дней OpenAI», спустя почти 10 месяцев после первой…

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

7 декабря 2024
Vinteo AI - нейросеть, которая создает реалистичные визуализации товаров за пару минут

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

Vinteo AI — SAAS на основе ИИ специализирующуюся на разработке решений в области искусственного интеллекта для визуальной презентации товаров. Нейросеть обеспечивает оперативное и экономически рациональное создание фотореалистичных изображений товаров в…

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

2 декабря 2024
deeplearning ai game development course free

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

DeepLearning.AI представил образовательный курс Building an AI-Powered Game. Программа курса фокусируется на практическом применении языковых моделей в разработке игр и предназначена для разработчиков разного уровня подготовки. Длительность курса — 1…

X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей

27 ноября 2024
Illustration of the partitioning scheme with Halo on a Koenigsegg car.

X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей

Исследователи NVIDIA представили X-MeshGraphNet, новое расширение для MeshGraphNet, которое значительно упрощает создание физических моделей и решает проблемы масштабируемости. Этот фреймворк позволяет создавать сложные физические модели, устраняя зависимость от предварительно сгенерированных…

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

16 ноября 2024
finrobot model

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, специально разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель…

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

6 ноября 2024
SmolLM v2

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

Компания Hugging Face представила SmolLM2 — новое семейство компактных языковых моделей, которое преводсходит существующие state-of-the-art модели. Так версия с 1.7B параметров опережает Llama-1B и Qwen2.5-1.5B на нескольких ключевых бенчмарках: 68.7%…

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

31 октября 2024
synthID deepmind text generator watermark

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

Компания DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста, расширив тем самым свою экосистему идентификации ИИ-контента. Решение уже доступно в библиотеке Hugging Face Transformers v4.46.0+.…