BiT: подход для обучения представлений изображений

Big Transfer — это подход для предобучения представлений изображений. Предобученную модель затем можно использовать для дообучения на собственной задаче. Такой формат обучения называется transfer learning. Использование transfer learning оправдано, в случае если для собственной задачи нет достаточного количества размеченных данных. Использование BiT улучшает качество модели для таких задач, как few-shot распознавание и ObjectNet. Исследователи опубликовали предобученные модели и код для TF2, Jax и PyTorch.

Проблема недостатка размеченных данных

Распространенным ограничением при решении задач в области компьютерного зрения является недостаток размеченных данных. Текущие нейросетевые архитектуры нуждаются в крупным размеченных датасетах. При этом для отдельных задач разметка данных в достаточном объеме чересчур ресурсоемкая.

Чтобы обойти ограничение недостатка размеченных данных, в компьютерном зрении и NLP используют transfer learning. Transfer learning подход заключается в том, что сначала модель предобучается на крупном датасете общей направленности. Затем модель дообучают на своей задаче, для которой недостаточно размеченных данных.

В чем суть подхода

Стратегию предобучения BiT можно разбить на следующие шаги:

  • Взять стандартную ResNet;
  • Увеличить глубину и ширину нейросети;
  • Заменить BatchNorm на GroupNorm и стандартизацию весов (GNWS);
  • Обучить модель на крупном общем датасете, увеличив при этом количество итераций

 

Визуализация предобучения BiT

После предобучения модель можно дообучить на интересующей задаче.

Визуализация дообучения BiT

Оценка работы модели

Использование BiT в архитектуре позволяет повысить качество модели.

Слева: сравнение BiT с предыдущей SOTA; Справа: результаты использования BiT в архитектуре
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt