fbpx
  • В Microsoft предложили меру близости для размеченных датасетов

    OTDD — это подход для оценки близости или расстояния между датасетами для задач классификации. OTDD основывается на транспортной задаче (optimal transport), геометрическом методе для сравнения вероятностных распределений. Подход позволяет оценить близость датасетов, даже если наборы классов в двух датасетах разнятся. 

    Помимо метрики близости, OTDD возвращает пересекающееся множество для входных наборов данных. Пересечения могут быть использованы для такой задачи, как поиск аналогичного объекта данных во втором датасете для отдельного объекта данных из первого датасета.

    Актуальность задачи и подробнее про подход

    Сравнение двух разных датасетов классификации, как датасет с одеждой и с рукописными цифрами, усложняется тремя факторами:

    1. Датасеты могут быть иметь разную мощность или количество объектов данных;
    2. Различие в начальной размерности. Например, цифры в MNIST имеют размерность 28 × 28 пикселя, а цифры в USPS — 16 × 16 пикселей;
    3. Классы могут относиться к разным концептам: лейблы одежды (FashionMNIST) или цифры (MNIST и USPS)

    Чтобы решить эти ограничения, исследователи адаптируют транспортную задачу для измерения близости двух датасетов. Ниже видно, из каких шагов состоит подход. 

    OTDD может применяться для двух задач:

    • Проверки, можно ли использовать обученную на одном датасете модель для другого датасета;
    • Ассистирование в аугментации данных

    Использование обученной модели на новом датасете

    Метрика расстояния датасетов положительно скоррелирована с качества тюнинга обученной модели на новый датасет. Ниже видно расстояние для датасетов с изображениями и текстами. OTDD можно использовать для выбора датасета для предобучения.

    Расстояние для датасетов с изображениями и текстами

    Как аугментировать данные

    Большинство моделей для классификации изображений используют предобучение на большом количестве данных. Часто, чтобы увеличить объём данных, изображения трансформируют: добавляют перевёрнутые или обрезанные версии изображений. OTDD можно использовать для выбора видов трансформаций, которые позитивно повлияют на скор модели.