Исследователи из Google Research оптимизировали архитектуру EfficientNet. Оптимизированная версия обучается за час с точностью в 83% на задаче классификации изображений из ImageNet. Исследователи оптимизировали архитектуру под обучение на TPU-v3 Pods с 2048 ядрами.
Что такое EfficientNet
EfficientNets — это семейство state-of-the-art моделей для классификации изображений на эффективно масштабированных сверточных сетях. На текущий момент EfficientNets обучаются не раньше чем за день. Например, EfficientNet-B0 обучается за 23 часа наCloud TPU v2-8 ноде. Чтобы ускорить время обучения классификаторов, исследователи предложили изменения в пайплайн обучения.
Как оптимизировали
Среди методов для ускорения, которые исследователи использовали:
- Выбор больших батч оптимизаторов;
- Адаптивный learning rate (learning rate schedules);
- Распределенная оценка;
- Батч нормализация
Сравнение работы оптимизированных архитектур
Ниже видны результаты работы двух вариаций EfficientNet.