GraphTransformer: расширение языковой модели для графов

GraphTransformer — это расширение Transformer языковой модели для графовых данных.

Зачем это нужно

Оригинальный трансформер разрабатывали для обработки естественного языка. Стандартная модель работает с полносвязными графами, которые представляют связи между словами (токенами) в последовательности. Такая архитектура не масштабируется на задачи обработки графов и плохо справляется с задачами, где важна топология графа. Исследователи предлагают расширение традиционного трансформера с четырьмя отличительными характеристиками.

Подробнее про архитектуру

В сравнении со стандартной архитектурой Transformer, которая адаптирована под обработку текстовых данных, предложенная архитектура отличаются следующим:

  • Механизм внимания — это функция соседства (neighborhood connectivity) для каждой ноды в графе;
  • Кодирование позиции реализовано через Laplacian eigenvectors, которые являются обобщением синусоидального позиционного кодирования, которое часто используют в NLP;
  • Нормализация слоев заменена на батч нормализацию слоев;
  • Архитектура расширена так, что в ней теперь есть представление ребер. Это может быть критично для задач, которые богаты информацией о связях
Сравнение работы GT на разных датасетах
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt