fbpx
  • Transformer языковая модель восстанавливает структуру белка

    Исследователи из Salesforce обучили языковую модель восстанавливать структуру белка. В качестве архитектуры использовали state-of-the-art языковую модель BERT. Помимо модели, разработчики публикую инструмент для трехмерной визуализации механизма внимания обученной модели

    Модель, которая была обучена предсказывать скрытую аминокислоту в последовательности белка, восстанавливает высокоуровневые структурные и функциональные характеристики протеина. Исследователи выяснили, что языковая модель использует механизм внимания для двух целей:

    1. Выявить складную структуру протеинов, сцепляя регионы, которые отдалены в последовательности, но в пространстве близки;
    2. Распознать сайты связывания, которые являются ключевым функциональным компонентом протеинов

    Как это работает 

    Протеины — это сложные молекулы, которые играют важную функциональную и структурную роль в организмах живых существ. Несмотря на сложность поведения протеинов, их представления является простым. Каждый протеин можно представить как цепь из аминокислот.

    Если представлять протеины как последовательности дискретных символов (аминокислот), то к ним применимы привычные языковые модели, которые используются в NLP. Исследователи взяли предобученную на протеиновых последовательностях BERT модель (TAPE). TAPE полностью повторяет по архитектуре BERT-Base: 12 слоев, каждый из которых содержит 12 механизмов внимания.

    Пример визуализации с ProVis. Последовательность протеина (спирали) с механизмом внимания обученного Трансформера (оранжевые линии)