Гибридная модель NS-CL (Neuro-Symbolic Concept Learner) от MIT и Deepmind отвечает на вопросы по типу «Имеет ли красный объект слева такую же форму, как и фиолетовый справа». Модель имеет высокую точность, на обучение уходит в разы меньше времени и ресурсов, чем на другие современные модели. NC-CL показывает результаты сравнимые со state-of-the-art моделью TbD, обученной непосредственно на аннотациях к изображениям.
Символический ИИ
Нейросети для интерпретации мира выявляют статические закономерности в данных, но статическое обучение требует много данных, которые не всегда подходят в новых ситуациях. Чтобы дать компьютерам умение рассуждать так же как и люди, исследователи возвращаются к абстрактному или символическому программированию. Популярный в 1950-х и 1960-х годах символический ИИ связывает правила и логику, благодаря которым машины связывают и интерпретируют отношения объектов и сущностей. Символический ИИ использует меньше данных и записывает цепочку шагов, необходимых для принятия решения, а также в сочетании с большими вычислительными ресурсами выигрывает у людей в сложном тесте на понимание изображений.
Новое исследование, проведённое группой исследователей из MIT, MIT-IBM Watson и DeepMind, показывает перспективу объединения статического и символического ИИ и изучает признаки объектов, такие как цвет и форма, используя эти знания для интерпретации. Нейросеть NS-CL отвечает на сложные вопросы лучше, чем другие современные методы.
Работа модели
Как и другие гибридные модели, NS-CL разделяет задачу. Модуль восприятия, основанный на нейронной сети, разбивает на пиксели каждое изображение. Языковой модуль, тоже состоящий из нейронной сети, пытается понять вопрос, на который нужно дать ответ, и создаёт нужные для этого инструкции. Третий модуль, отвечающий за рассуждение, запускает программы на сцене и даёт ответ, при ошибке этот же модуль обновляет модель исходя из полученного опыта. Ключевой модуль отвечает за восприятие, переводит изображение в объектное представление и тем самым облегчает выполнение программы.
Обучение
Уникальным является то, что обучение происходит на сценах и концепциях, которые по мере продвижения модели становятся сложнее. Такое обучение работает лучше, чем обучение на случайных данных, позволяя модели учиться быстрее и повышая точность.
Когда у модели прочная основа, она может безошибочно интерпретировать новые объекты, а также отвечать на более сложные вопросы. В то время, как похожим моделям нужно более 70 000 изображений и 700 000 вопросов для обучения, NS-CL хватает всего 5 000 изображений и 100 000 вопросов.
В настоящее время команда MIT-IBM работает над улучшением модели, обучая на реальных фотографиях и работе с видео.