fbpx
  • TAPAS: поиск ответа на вопрос в табличных данных с помощью BERT

    TAPAS — это инструмент для поиска ответа на вопрос в табличных данных. В основе системы лежит архитектура BERT. Модель кодирует вопрос на естественном языке совместно с структурой табличных данных. На выходе система отдает наиболее релевантные данные из таблицы.

    Проблема текущих подходов

    Большинство информации хранится в формате таблиц, которые можно найти в сети или в базах данных и документах. На данный момент основным способом поиска по табличным данным является ручной поиск. Исследователи предлагают метод для написания запросов на естественном языке к таблицам.

    Предыдущие подходы применяют традиционный семантический парсинг для решения этой задачи. В таком случае вопрос на естественном языке переводится в запрос на SQL-подобном языке. Запрос исполняется, и пользователь получает ответ с наиболее релевантными данными из таблицы. Недостатком такого подхода является необходимость генерировать синтаксически и семантически валидные запросы. Кроме того, такая система не масштабируется на новые типы вопросов.

    Как обрабатывается вопрос

    Чтобы обработать вопрос “Average time as champion for top 2 wrestlers?”, предложенная модель совместно кодирует вопрос и структуру таблицы построчно. Для кодирования используется архитектура BERT. Исследователи расширили стандартную модель специальным эмбеддингом, который кодирует структуру таблицы.

    Архитектура модели

    Модель на выходе отдает:

    1. Для каждой ячейке в таблице — вероятность того, что эта ячейка является частью ответа;
    2. Операция, которая применялась при формировании итогового ответа

    Тестирование модели

    Исследователи протестировали модель на трех датасетах: SQA, WikiTableQuestions (WTQ) и WikiSQL, — и сравнили с тремя state-of-the-art моделями. Предложенная модель обходит предыдущие подхода на более чем 12 пунктов на датасете SQA.