fbpx
  • Human in the Loop: как сократить ресурсы на разметку данных

    BatchBALD — метод для выбора информативных данных для разметки. Подход основан на теории информации. В открытом доступе лежит реализация алгоритма.

    Что такое активное обучение

    Использование глубокого обучения и больших размеченных данных дает возможность точно моделировать спектр различных явлений. Разметка данных — ресурсоемкий процесс, и не всегда размеченные данные находятся в открытом доступе. 

    В активном обучении экспертов просят разметить только наиболее информативные объекты в выборке, а не все данные. Модель перезапускается с учетом новых размеченных данных. Процесс повторяется, пока точность модели не будет удовлетворительной. Этот подход к разметке данных называется “human in the loop”. Он значительно сокращает количество данных для разметки. BatchBALD — это алгоритм “human in the loop”, который подбирает оптимальные объекты для разметки.

    Процесс активного обучения по шагам

    Чтобы начать активно обучать модель, необходимо определить меру информативности объектов выборки. Обычно эта мера определяется через функцию приобретения (acquisition function). Мера называется функцией приобретения, потому что она рассчитывает, насколько выгодно получить информацию о конкретном объекте. Неразмеченные объекты выборки с максимальной мерой информативности попадают экспертам на разметку.

    Проблема

    Обычно информативность неразмеченных объектов рассчитывается индивидуально. Один из популярных подходов для этого — BALD (Bayesian Active Learning by Disagreement). У такого подхода есть недостаток — не учитывается возможная близость информативного объекта к другим объектам. У одного объекта может быть множество похожих или идентичных объектов. Это означает, что если в качестве информативных отбираются топ K объектов, эксперту могут попасться почти идентичные объекты для разметки.

    Что такое BatchBALD?

    BatchBALD рассчитывает меру информативности с учетом данных о похожести объектов так, чтобы в подвыборку информативных объектов попали наиболее непохожие. Мера будет высокой, когда у модели будет несколько разных объяснений для объекта выборки. От этого Disagreement в названии метода.

    Оценка работы подхода

    В экспериментах исследователи использовали байесовские нейронные сети с MC дропаутом. Эксперименты проводились на данных MNIST и RMNIST (Repeated MNIST). BatchBALD сравнивался с BALD методом и случайном семлированием информативных объектов.

    Ниже видно, что нейросеть с BatchBALD более точная, а случайное семплирование работает лучше, чем BALD.

    Сравнение подходов на задаче RMNIST