VTAB: задачи для проверки качества представлений изображений

Google AI опубликовали тестовые задачи для оценки моделей, которые генерируют представления изображений. VTAB (The Visual Task Adaptation Benchmark) состоит из 19 датасетов. Результаты моделей фиксируются на публичном лидерборде.

Описание проблемы

Сейчас нейросети выучивают информативные представления изображений из сырых пикселей. Эти представления далее используются для решения задачи. Обучение представлений с нуля обычно требует сотен тысяч размеченных примеров. Это ограничение можно обойти с помощью предобученных представлений. Однако исследователи сталкиваются с проблемой выбора модели. Например, для задачи извлечения признаков из изображений существует более 100 моделей. Чтобы выбрать модель из списка, необходимо оценить их качество. VTAB — это задача для оценки моделей, которые генерируют представления изображений.

Цель моделей представлений — выучить представления за один раз без необходимости дополнительного дообучения модели для каждой подзадачи. Это сократит необходимость в данных для задач компьютерного зрения. VTAB необходим для сравнения моделей, которые выучивают представления изображений. Датасет базируется на том, что модель работает лучше, если она выдают информативные представления для ранее неизвестных данных.

Из чего состоит VTAB

VTAB состоит из 19 задач компьютерного зрения, которые должна решить модель. Среди задач — Caltech101, CIFAR-100, CLEVR distance prediction, CLEVR counting и другие. Модель может использовать предобученные представления изображений и должна следовать двум требованиям:

Алгоритм не должен быть предобучен на данных, которые используются в задачах;
Запрещается вручную описывать логику решения задач внутри алгоритма. Модели не должны видеть данные из задач для оценки

Процесс оценки модели начинается с применения алгоритма к задачам. Задачи охватывают широкий спектр проблем в компьютерном зрении. Итоговая оценка алгоритма рассчитывается как средняя оценка за все задачи.

Задачи в VTAB объединяет одна характеристика: человек может их решить, имея всего несколько примеров решений. Каждая задача состоит из 1000 примеров.