12-в-1: одна нейросеть решает 12 задач на стыке компьютерного зрения и NLP

Большая часть исследований на стыке компьютерного зрения и NLP фокусируется на наборе небольших задач, которые изучаются по отдельности. Однако навыки обработки визуальной и текстовой информации для решения разных задач значительно перекликаются. Исследователи обучили одну нейросетевую модель, которая решает 12 задач из области vision-and-language так же хорошо или лучше, чем state-of-the-art. 

Задачи включают в себя:

  • Визуальную вопросно-ответную систему (visual question answering);
  • Извлечение изображения по подписи (caption-based image retrieval);
  • Распознавание объектов на изображении по описанию (grounding referring expressions);
  • Мультимодальная проверка (multi-modal verification)

12-в-1 модель позволяет сократить число параметров модели с 3 миллиардов до 270 миллионов в сравнении с моделями, обученными для отдельных задач. При этом в среднем качество предсказаний модели возрастает на 2.05 пунктов для всех задач.

Обучение модели 

В качестве архитектуры модели исследователи используют ViLBERT. Нейросеть решает 6 задач на 12 датасетах. Предобучали модель на датасете Conceptual Caption. Предобученную модель затем дообучали на 12 датасетах, которые принадлежали к одной из 6 задач.

Псевдокод алгоритма оптимизации в модели

Оценка работы нейросети

Исследователи сравнили обученную многозадачную модель с моделями, которые обучали на отдельных задачах. Многозадачное обучение позволяет в среднем улучшить качество модели.

Сравнение single-task и multi-task моделей
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt