DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами.
DeepMind обучила Gato на датасетах, включающих опыт работы агента как в моделируемых, так и в реальных средах, а также на датасетах естественного языка и изображений.
Gato имеет архитектуру трансформера, которая была выбрана для решения сложных задач на рассуждение, демонстрации способностей к обобщению текстов, созданию музыки, классификации объектов на фотографиях и анализу последовательностей белков.
На этапе обучения Gato данные из различных задач и модальностей упорядочиваются в плоскую последовательность токенов, объединяются и обрабатываются нейросетью.
Интересно, что у Gato количество параметров на порядки меньше, чем у однозадачных систем, включая GPT-3. Так, GPT-3 насчитывает более 170 миллиардов параметров, в то время как у Gato их всего 1,2 миллиарда.