fbpx
  • Исследователи из Стенфорда представили улучшенную модель для генерации вопросов к изображениям

    Модель генерации вопросов к изображению, предложенная исследователями из Стенфордского университета, показала результаты лучше, чем существующие state-of-the-art модели IA2Q и V-IA2Q.

    Примеры входных и выходных данных модели.

    Проблема и предыдущие исследования

    Ученые поставили перед собой задачу image-to-sequence генерации, когда на входе принимается картинка и желаемый тип ответа, а на выдается сгенерированный вопрос, учитывающий контекст того, что изображено картинке.

    Привычный подход к решению этой задачи — кодировать изображения через CNN и декодировать вопросы через RNN с использованием MLE. Однако ограничение этого подхода в том, что сгенерированные вопросы получаются однообразными и не учитывают тип ответа.

    Что предложили, чтобы улучшить

    Исследователи решили проблему с невозможности учитывать заданную категорию ответа с помощью максимизации взаимной информации (MI) между сгенерированным вопросом и изображением, а также между сгенерированными вопросом и категорией ответа.

    Для оптимизации MI ученые вводят z-space — скрытое пространство.

    Процесс обучения проходит следующим образом:

      1. Изображение и ответ переводятся в вектора в скрытом пространстве z;
      1. Оптимизируется совместная информация между изображением и ответов, чтобы восстановить изображение и ответ;
      1. Из z пространства генерируется вопрос, формулировка которого оптимизируется с помощью MLE;
    1. Вводится второе скрытое пространство t, которое обучается через минимизацию расстояния Кульбака-Лейблера и позволяет генерировать вопрос без привязки к поданному на вход ответу, но с опорой на категорию ответа.

    Проверка работы модели

    Для проверки эффективности модели исследователи сравнили ее с такими архитектурами, как IA2Q и V-IA2Q. Проверка проводилась на датасете VQA. Категории ответов выделялись вручную (15 категорий), для каждой категории ответа были размечены 500 самых часто встречаемых ответов (82% от всего датасета) с помощью ResNet18. Итоговый сет данных для тренировки и валидации составил 367 тыс. объектов.

    Сравнение эффективности существующих архитектур и предложенной модели.

    Наилучшие результаты стабильно показывали полная модель (Ours), модель без скрытого пространства t, генерирующая вопросы только из ответов (Ours w/o C) и модель без максимизации взаимной информации (Ours w/o A). Предложенные модели превзошли существующие.