REVISE: инструмент для оценки смещений в датасетах с изображениями

REVISE — инструмент для оценки смещений в датасетах с изображениями. REVISE позволяет пользователю учесть неравномерность данных и оценить, насколько уместно использовать тот или иной датасет в рамках целевой задачи. Инструмент также предлагает действия для избавления от существующих смещений. Код проекта доступен в открытом репозитории на GitHub.

Модели машинного обучения известны тем, что они перенимают смещения и неоднородность распределения данных, на которых обучаются. Однако такие смещения данных часто становятся заметны на этапе деплоя модели. Чтобы решить эту проблему, исследователи предлагают инструмент для измерения и избавления от смещений в данных. REVISE (REvealing VIsual biaSEs) — это инструмент для помощи в анализе визуальных датасетов. REVISE учитывает смещения трех уровней: на уровне объекта, гендера и географии.

Типы смещений

К смещениям на уровне объектов относятся размер, контекст и разнообразие представленности объектов. Смещения на уровне гендера отражают стереотипное представления людей разных гендеров. Географические смещения касаются представленность разных географических локаций.

Как использовать

REVISE принимает на вход изображения с разметкой трех типов: классов объектов, гендера людей и географии места, где было снято изображение. На выходе модель выдает скор по каждому из смещений и набор действий, которые можно предпринять для избавления от смещений. Инструмент работает внутри Jupyter ноутбука. Кроме того, метрики оценки смещений можно кастомизировать.

Пример оценки датасета COCO на смещения классов объектов
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt