Pick-a-Pic — это датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи StabilityAI и Тель-Авивского университета опубликовали датасет Pick-a-Pic в открытом доступе и представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.
Процесс оценки сгенерированных изображений
Для создания датасета исследователи разработали веб-приложение на основе моделей StableDiffusion 1.5 и SDXL beta, в котором по текстовой подсказке генерируется пара изображений. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.
Функция оценки PickScore
Датасет использовали для обучения функции оценки релевантности изображения введенному запросу. Для этого исследователи дообучили модель CLIP-H с использованием целевой функции, аналогичной модели вознаграждения InstructGPT. Целью этой функции является максимизация вероятности выбора предпочитаемого изображения по сравнению с непредпочитаемым и вероятности ничьей. Результаты показали, что PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%. State-of-the-art методы предсказания zero-shot CLIP-H и Aesthetics показывают производительность близкую к случайной (60,8% и 56,8% соответственно).
Сравнение с FID
Сравнение PickScore с FID, устоявшейся метрикой для оценки генеративных моделей, показало, что даже при оценке по подписям MS-COCO, PickScore демонстрирует сильную корреляцию с предпочтениями пользователей (0,917), в то время как ранжирование с помощью FID дает отрицательную корреляцию (-0,900). PickScore коррелирует с ранжированием «экспертов» гораздо сильнее, что делает PickScore наиболее надежной метрикой скоринга по сравнению с существующими.
Полученный набор данных содержит более полумиллиона примеров и выложен в открытом доступе, как и функция оценки. PickScore — передовая функция оценки сгенерированных по подсказке изображений, которая показывает лучшую согласованность с суждениями людей по сравнению с другими общедоступными бенчмарками.