От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен

31 октября 2025
Detecting Boilerplate Responses LLM

От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен

Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) больших языковых моделей после генерации всего одного токена. Метод позволяет оптимизировать вычислительные затраты через досрочное прерывание генерации или…

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

21 апреля 2025
deepmath reasoning dataset ai

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

12 июня 2024
zyda dataset composition

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…

Google Gecko: бенчмарк для text-to-image моделей

6 мая 2024
Google Gecko

Google Gecko: бенчмарк для text-to-image моделей

Google DeepMind разработала Gecko – бенчмарк, обеспечивающий более точное и надежное тестирование и сравнение text-to-image моделей, чем существующие подходы. Исследование Google DeepMind выявило скрытые ограничения в том, как в настоящее…

Gretel: крупнейший открытый Text-to-SQL датасет

7 апреля 2024
gretel dataset sql

Gretel: крупнейший открытый Text-to-SQL датасет

Стартап Gretel, специализирующийся на генерации высококачественных синтетических данных, объявил о создании крупнейшего открытого text-to-SQL датасета, нацеленного на ускорение развития no-code инструментов аналитики. Датасет содержит более 100 000 корректных синтетических образцов…

SCIN: датасет изображений дерматологических заболеваний

25 марта 2024
google scin dataset

SCIN: датасет изображений дерматологических заболеваний

Google вместе со Stanford Medicine представила SCIN – открытый датасет с 10 000 изображениями дерматологических заболеваний. Обученные на его основе модели смогут удаленно диагностировать аллергические, воспалительные и инфекционные состояния кожи,…

Google VRDU: обучение моделей пониманию содержания документов

27 августа 2023
google vrdu 2

Google VRDU: обучение моделей пониманию содержания документов

Google опубликовала в открытом доступе VRDU – датасет и бенчмарк для обучения моделей пониманию содержания документов. VRDU нацелен на ускорение развития моделей, обрабатывающих сложные документы для повышения эффективности бизнес-процессов и…

Prithvi: модель и датасет NASA для анализа экологических явлений

6 августа 2023
prithvi

Prithvi: модель и датасет NASA для анализа экологических явлений

NASA и IBM представили open-source модель Prithvi, которая позволит ученым отслеживать последствия изменения климата, осуществлять мониторинг вырубки лесов, прогнозировать урожайность сельскохозяйственных культур и анализировать выбросы парниковых газов. В рамках миссии…

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

6 июня 2023
pickscore оценка изображений

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic — это датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи StabilityAI и Тель-Авивского университета опубликовали датасет Pick-a-Pic…

Reactor: генерация сцен по текстовому описанию

19 мая 2023
reactor parallel domains

Reactor: генерация сцен по текстовому описанию

Платформа Parallel Domain объявила о запуске Reactor – инструмента для работы с синтетическими данными, нацеленного на обучение беспилотных автомобилей и роботов. Интегрированная в Reactor языковая модель позволяет генерировать или модифицировать…

RedPajama: open-source датасет для обучения больших языковых моделей

20 апреля 2023

RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей. Наиболее эффективные на…

LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022
LAION-5B

LAION-5B: крупнейший датасет пар изображение-текст

Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе датасета…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

Intel анонсировала крупнейшие датасеты для распознавания речи

9 декабря 2021

Intel анонсировала крупнейшие датасеты для распознавания речи

Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках. Датасет People’s Speech…

Visual Genome: датасет размеченных изображений

25 ноября 2021

Visual Genome: датасет размеченных изображений

Visual Genome — датасет с более чем 100 000 изображений и описаний всех объектов на них. Датасет нацелен на использование в задачах поиска и распознавания объектов. Visual Genome является самым…

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

12 ноября 2021
датасет диалогов Amazon Mechanical Turk

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

Commonsense-Dialogues — датасет диалогов Amazon, содержащий 11 000 примеров общения из повседневной жизни. Датасет диал нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с…

GoEmotions: датасет Google AI для анализа тональности текста

31 октября 2021

GoEmotions: датасет Google AI для анализа тональности текста

Датасет Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. GoEmotions предназначен для обучения нейросетей выполнению глубокого анализа тональности текстов. Большинство существующих датасетов для классификации эмоций…

ORBIT: датасет Microsoft изображений предметов быта

20 октября 2021

ORBIT: датасет Microsoft изображений предметов быта

ORBIT — датасет Microsoft для обучения моделей распознаванию предметов по нескольким изображениям. ORBIT включает от 1 до 10 видеозаписей 468 предметов из повседневной жизни. Обычно модели распознавания объектов обучаются на…

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

9 октября 2021

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

Microsoft представила датасет синтетических изображений лиц Fake It Till You Make It. Датасет нацелен на предварительное обучение алгоритмов распознавания лиц перед использованием в реальных сценариях. В биометрии уже несколько лет…