REVISE — инструмент для оценки смещений в датасетах с изображениями. REVISE позволяет пользователю учесть неравномерность данных и оценить, насколько уместно использовать тот или иной датасет в рамках целевой задачи. Инструмент также предлагает действия для избавления от существующих смещений. Код проекта доступен в открытом репозитории на GitHub.
Модели машинного обучения известны тем, что они перенимают смещения и неоднородность распределения данных, на которых обучаются. Однако такие смещения данных часто становятся заметны на этапе деплоя модели. Чтобы решить эту проблему, исследователи предлагают инструмент для измерения и избавления от смещений в данных. REVISE (REvealing VIsual biaSEs) — это инструмент для помощи в анализе визуальных датасетов. REVISE учитывает смещения трех уровней: на уровне объекта, гендера и географии.
Типы смещений
К смещениям на уровне объектов относятся размер, контекст и разнообразие представленности объектов. Смещения на уровне гендера отражают стереотипное представления людей разных гендеров. Географические смещения касаются представленность разных географических локаций.
Как использовать
REVISE принимает на вход изображения с разметкой трех типов: классов объектов, гендера людей и географии места, где было снято изображение. На выходе модель выдает скор по каждому из смещений и набор действий, которые можно предпринять для избавления от смещений. Инструмент работает внутри Jupyter ноутбука. Кроме того, метрики оценки смещений можно кастомизировать.