fbpx
  • BiT: подход для обучения представлений изображений

    Big Transfer — это подход для предобучения представлений изображений. Предобученную модель затем можно использовать для дообучения на собственной задаче. Такой формат обучения называется transfer learning. Использование transfer learning оправдано, в случае если для собственной задачи нет достаточного количества размеченных данных. Использование BiT улучшает качество модели для таких задач, как few-shot распознавание и ObjectNet. Исследователи опубликовали предобученные модели и код для TF2, Jax и PyTorch.

    Проблема недостатка размеченных данных

    Распространенным ограничением при решении задач в области компьютерного зрения является недостаток размеченных данных. Текущие нейросетевые архитектуры нуждаются в крупным размеченных датасетах. При этом для отдельных задач разметка данных в достаточном объеме чересчур ресурсоемкая.

    Чтобы обойти ограничение недостатка размеченных данных, в компьютерном зрении и NLP используют transfer learning. Transfer learning подход заключается в том, что сначала модель предобучается на крупном датасете общей направленности. Затем модель дообучают на своей задаче, для которой недостаточно размеченных данных.

    В чем суть подхода

    Стратегию предобучения BiT можно разбить на следующие шаги:

    • Взять стандартную ResNet;
    • Увеличить глубину и ширину нейросети;
    • Заменить BatchNorm на GroupNorm и стандартизацию весов (GNWS);
    • Обучить модель на крупном общем датасете, увеличив при этом количество итераций

     

    Визуализация предобучения BiT

    После предобучения модель можно дообучить на интересующей задаче.

    Визуализация дообучения BiT

    Оценка работы модели

    Использование BiT в архитектуре позволяет повысить качество модели.

    Слева: сравнение BiT с предыдущей SOTA; Справа: результаты использования BiT в архитектуре