Как аугментировать данные для задач компьютерного зрения

State-of-the-art архитектуры для задач компьютерного зрения, как правило, требуют значительного количества обучающих данных. Часто сбор данных и разметка являются ресурсоемким процессом, поэтому существуют методы для пополнения данных (аугментации) синтетическими примерами из уже существующих данных. Одним из наиболее популярных инструментов для аугментации визуальных данных является библиотека Albumentations.

Способы аугментировать визуальные данные

Среди существующих методов пополнения данных:

Цветовые трансформации: изменение цветовой сатурации или обесцвечивание никак не влияет границы объектов и маски сегментации;
Косметические трансформации: например, блюр;
Геометрические трансформации: изображение обрезают, изменяют размер или поворачивают, то же делают с разметкой границ и маской;
Частичное зашумление изображения (grid distortion), когда часть изображения модифицируется в соответствии с каким-то правилом;
Дропаут для масок: удаление разметки для части объектов на изображении

Те же идеи могут применяться для других типов разметки. Например, разметка ключевых точек.

Такие трансформации позволяют значительно расширить набор обучающих данных и сделать модель более устойчивой к изменениям в изображениях.