TAPAS — это нейросетевая модель для поиска ответов на вопросы в табличных данных. Нейросеть является расширением двунаправленной Transformer-модели BERT со специальными эмбеддингами для поиска ответов. Модель разрабатывали в Google AI. Исследователи ввели новую целевую функцию. По результатам экспериментов, TAPAS обходит state-of-the-art модели для анализа табличных данных. Исследователи опубликовали вариации модели разных размеров в репозитории на GitHub.
Зачем это нужно
Задача распознавания связи между частями текста (natural language inference) состоит в том, что бы определить, может ли часть текста подкрепить или опровергнуть другую часть текста (гипотеза). В то время как эту проблему тестируют для текстовых данных, недостаточно внимания уделяли использованию структурированных данных, как табличные данные, для проверки гипотетических высказываний. Такие модели могут найти применение в вопросно-ответных системах и в виртуальных ассистентах.
Тестирование модели
На датасете TabFact использование TAPAS приближает точность ответов модели на 50% к точности ответов человеком. Кроме того, исследователи тестировали подходы на эффективность вычислений. TAPAS обучался в 4 раза быстрее и требовал меньше памяти при сохранении в точности результатов на 92%.