Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic — это датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи StabilityAI и Тель-Авивского университета опубликовали датасет Pick-a-Pic в открытом доступе и представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.

picscore preferred images — Изображения, сгенерированные с помощью веб-приложения Pick-a-pic. Слева — отклоненные изображения (затемненные); справа — предпочтительные изображения.

Процесс оценки сгенерированных изображений

Для создания датасета исследователи разработали веб-приложение на основе моделей StableDiffusion 1.5 и SDXL beta, в котором по текстовой подсказке генерируется пара изображений. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.

процесс создания датасета Pickapic — Как собираются оценки пользователей через веб-приложение: (а) пользователь пишет промт и получает два изображения; (б) пользователь выбирает наиболее релевантный вариант; (в) вместо отклоненного изображения предлагается новое изображение. Этот процесс повторяется, пока пользователь не изменит подсказку.

Функция оценки PickScore

Датасет использовали для обучения функции оценки релевантности изображения введенному запросу. Для этого исследователи дообучили модель CLIP-H с использованием целевой функции, аналогичной модели вознаграждения InstructGPT. Целью этой функции является максимизация вероятности выбора предпочитаемого изображения по сравнению с непредпочитаемым и вероятности ничьей. Результаты показали, что PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%. State-of-the-art методы предсказания zero-shot CLIP-H и Aesthetics показывают производительность близкую к случайной (60,8% и 56,8% соответственно).

Сравнение с FID

Сравнение PickScore с FID, устоявшейся метрикой для оценки генеративных моделей, показало, что даже при оценке по подписям MS-COCO, PickScore демонстрирует сильную корреляцию с предпочтениями пользователей (0,917), в то время как ранжирование с помощью FID дает отрицательную корреляцию (-0,900). PickScore коррелирует с ранжированием «экспертов» гораздо сильнее, что делает PickScore наиболее надежной метрикой скоринга по сравнению с существующими.

Полученный набор данных содержит более полумиллиона примеров и выложен в открытом доступе, как и функция оценки. PickScore — передовая функция оценки сгенерированных по подсказке изображений, которая показывает лучшую согласованность с суждениями людей по сравнению с другими общедоступными бенчмарками.