SEER — это self-supervised нейросеть с миллиардом параметров от FAIR для задач компьютерного зрения. Предобученную на снимках из Instagram модель можно дообучать на своих задачах. Разработчики опубликовали библиотеку VISSL для обучения SEER модели.
Подробнее про архитектуру модели
SEER объединяет в себе архитектуру RegNet и формат онлайн self-supervised обучения. В качестве алгоритма для онлайн обучения использовали SwAV. RegNet, в свою очередь, — это масштабируемая сверточная нейросеть, которая позволяет обходит ограничения по времени обучения и памяти. Такая комбинация позволяет SEER масштабироваться до миллиардов параметром и обучающих изображений.
Тестирование работы SEER
После предобучения на миллиарде случайных, неразмеченных изображений из Instagram SEER обошла большинство state-of-the-art self-supervised моделей. По результатам экспериментов, максимальная точность предсказаний нейросети составила 84.2% на датасете ImageNet.
SEER также обошла state-of-the-art подходы обучения с учителем на таких задачах, как low-shot, детектирование объектов, сегментация и классификация изображений.
Если использовать для обучения 10% изображений из ImageNet, максимальная точность SEER составляет 77.9% для всего ImageNet. Если обучать нейросеть на 1% размеченных изображений из ImageNet, точность составит 60.5%.
Результаты SEER показывают, что формат self-supervised обучения подходит и для задач компьютерного зрения.