Google Gecko: бенчмарк для text-to-image моделей

Google DeepMind разработала Gecko – бенчмарк, обеспечивающий более точное и надежное тестирование и сравнение text-to-image моделей, чем существующие подходы.

Исследование Google DeepMind выявило скрытые ограничения в том, как в настоящее время оценивается производительность моделей, преобразующих текст в изображение. В нем отмечается, что датасеты и метрики, которые в основном используются сегодня для оценки возможностей таких моделей, как DALL-E, Midjourney и Stable Diffusion, не предоставляют полной картины: ручные оценки на небольшой выборке респондентов дают ограниченное представление о качестве модели, а автоматически рассчитываемые метрики могут упускать важные нюансы и расходиться с мнением экспертов.

Для решения данной проблемы исследователи разработали Gecko — набор тестов, оценивающий сложность моделей преобразования текста в изображение. Gecko включает тексты 2000 запросов, которые проверяют широкий спектр навыков модели и уровней их сложности. Каждый запрос проверяет конкретные вспомогательные навыки, выходя за рамки расплывчатых категорий, чтобы точно определить слабые места, ограничивающие соответствие сгенерированных изображений запросам.

Бенчмарк не только проверяет, какие навыки являются слабым местом модели, но и оценивает уровень каждого навыка. Исследователи также собрали более 100 000 экспертных оценок изображений, созданных несколькими ведущими моделями в ответ на запросы Gecko. На основе данных оценок бенчмарк позволяет определить, связаны ли пробелы в производительности тестируемой модели с ее внутренними ограничениями, неоднозначными подсказками или несогласованными методами оценки.