Нейросеть NS-CL интерпретирует сцену, требуя всего 5000 изображений для обучения

Гибридная модель NS-CL (Neuro-Symbolic Concept Learner) от MIT и Deepmind отвечает на вопросы по типу «Имеет ли красный объект слева такую же форму, как и фиолетовый справа». Модель имеет высокую точность, на обучение уходит в разы меньше времени и ресурсов, чем на другие современные модели. NC-CL показывает результаты сравнимые со state-of-the-art моделью TbD, обученной непосредственно на аннотациях к изображениям.

tbd — Сравнение работы моделей для интерпретации сцены

Символический ИИ

Нейросети для интерпретации мира выявляют статические закономерности в данных, но статическое обучение требует много данных, которые не всегда подходят в новых ситуациях. Чтобы дать компьютерам умение рассуждать так же как и люди, исследователи возвращаются к абстрактному или символическому программированию. Популярный в 1950-х и 1960-х годах символический ИИ связывает правила и логику, благодаря которым машины связывают и интерпретируют отношения объектов и сущностей. Символический ИИ использует меньше данных и записывает цепочку шагов, необходимых для принятия решения, а также в сочетании с большими вычислительными ресурсами выигрывает у людей в сложном тесте на понимание изображений.

Новое исследование, проведённое группой исследователей из MIT, MIT-IBM Watson и DeepMind, показывает перспективу объединения статического и символического ИИ и изучает признаки объектов, такие как цвет и форма, используя эти знания для интерпретации. Нейросеть NS-CL отвечает на сложные вопросы лучше, чем другие современные методы.

Работа модели

Как и другие гибридные модели, NS-CL разделяет задачу. Модуль восприятия, основанный на нейронной сети, разбивает на пиксели каждое изображение. Языковой модуль, тоже состоящий из нейронной сети, пытается понять вопрос, на который нужно дать ответ, и создаёт нужные для этого инструкции. Третий модуль, отвечающий за рассуждение, запускает программы на сцене и даёт ответ, при ошибке этот же модуль обновляет модель исходя из полученного опыта. Ключевой модуль отвечает за восприятие, переводит изображение в объектное представление и тем самым облегчает выполнение программы.

Обучение

Уникальным является то, что обучение происходит на сценах и концепциях, которые по мере продвижения модели становятся сложнее. Такое обучение работает лучше, чем обучение на случайных данных, позволяя модели учиться быстрее и повышая точность.

NS-CL learning — Слева — программа обучения, справа — иллюстрированное представление выполнения

Когда у модели прочная основа, она может безошибочно интерпретировать новые объекты, а также отвечать на более сложные вопросы. В то время, как похожим моделям нужно более 70 000 изображений и 700 000 вопросов для обучения, NS-CL хватает всего 5 000 изображений и 100 000 вопросов.

В настоящее время команда MIT-IBM работает над улучшением модели, обучая на реальных фотографиях и работе с видео.