TAPAS: поиск ответа на вопрос в табличных данных с помощью BERT

TAPAS — это инструмент для поиска ответа на вопрос в табличных данных. В основе системы лежит архитектура BERT. Модель кодирует вопрос на естественном языке совместно с структурой табличных данных. На выходе система отдает наиболее релевантные данные из таблицы.

Проблема текущих подходов

Большинство информации хранится в формате таблиц, которые можно найти в сети или в базах данных и документах. На данный момент основным способом поиска по табличным данным является ручной поиск. Исследователи предлагают метод для написания запросов на естественном языке к таблицам.

Предыдущие подходы применяют традиционный семантический парсинг для решения этой задачи. В таком случае вопрос на естественном языке переводится в запрос на SQL-подобном языке. Запрос исполняется, и пользователь получает ответ с наиболее релевантными данными из таблицы. Недостатком такого подхода является необходимость генерировать синтаксически и семантически валидные запросы. Кроме того, такая система не масштабируется на новые типы вопросов.

Как обрабатывается вопрос

Чтобы обработать вопрос “Average time as champion for top 2 wrestlers?”, предложенная модель совместно кодирует вопрос и структуру таблицы построчно. Для кодирования используется архитектура BERT. Исследователи расширили стандартную модель специальным эмбеддингом, который кодирует структуру таблицы.

Архитектура модели

Модель на выходе отдает:

  1. Для каждой ячейке в таблице — вероятность того, что эта ячейка является частью ответа;
  2. Операция, которая применялась при формировании итогового ответа

Тестирование модели

Исследователи протестировали модель на трех датасетах: SQA, WikiTableQuestions (WTQ) и WikiSQL, — и сравнили с тремя state-of-the-art моделями. Предложенная модель обходит предыдущие подхода на более чем 12 пунктов на датасете SQA.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt