Facebook AI опубликовали работу, в которой проверяли нейросети на способность следовать принципу взаимной исключительности при принятии решений. Если поставить перед ребенком незнакомый предмет и знакомый и спросить, что из них является предметом, название которого он не знает, ребенок присвоит незнакомую категорию незнакомому объекту. При этом нейросетевые модели не выучивают, что категория у объекта может быть только одна. Исследователи подчеркивают потребность в проектировании нейросетей с подобными индуктивными предубеждениями.
Сильные индуктивные предубеждения позволяют детям учиться быстро и адаптироваться к изменениям среды. Дети для этого используют принцип взаимной исключительности (mutual exclusivity). Благодаря ему, детям проще выучивать связи между словами. Взаимная исключительность предполагает, что если объект принадлежит к одной группе, ему не нужно присваивать еще одну. Фокус исследования в том, чтобы проверить, способны ли стандартные нейросетевые архитектуры к взаимной исключительности.
Как оценить нейросеть
Предполагается, что у модели есть знакомые ей и незнакомые предметы. У каждого предмета есть название (категорий) и изображение объекта.
Как оценивается seq2seq модель:
- После того как модель обучена на выборке знакомых объектов, незнакомый объект поступает на вход модели как вектор признаков;
- Сеть сопоставляет вектор незнакомого объекта с вектором изображения через скрытый слой между ними
Большая часть вероятности распределяется между ранее известными модели объектами.
Как оценивается полносвязная модель:
- Похожий пайплайн, как у seq2seq модели;
- На этапе тестирования незнакомый объект кодируется и рассчитывается его ME (mutual exclusivity) метрика
Взаимная исключительность на задаче классификации
Исследователи проверили нейросетевые модели на нескольких задачах. Для задачи классификации датасет состоял из 100 пар слово-изображение, которые были закодированы в вектора размером 100. Модель тренировалась на 90 парах, а 10 отводились для тестирования. Для каждого тестового объекта рассчитывалась его ME метрика. Рассчитанная ME метрика сравнивалась с максимально возможной.
Всего было оценено около 400 моделей, но подробное описание архитектур отсутствует. Ниже видно, что нейросеть, даже с использованием дополнительных апгрейдов, плохо справлялась с классификацией незнакомых объектов.