fbpx
  • Google AI выпустила библиотеку с результатами исследования распутывания представлений

    Google AI опубликовала библиотеку disentanglement_lib, которая содержит 10800 вариационных автоэнкодеров, обученных на семи датасетах. Эта библиотека призвана помочь исследователям по всему миру решить одну из главных проблем глубокого обучения — неспособность использовать многомерные данные для генерации полезных представлений методами без учителя. Один из подходов, позволяющий решить эту проблему, называется распутывание представлений. Он заключается в том, чтобы путем обучения модели построить вектор независимых параметров, где каждый из них означает отдельный фактор (положение, размер, угол вращения, цвет и т.д.)

    Визуализация независимых факторов датасета Shapes3D: цвет пола (вверху слева), цвет стены (вверху посередине), цвет объекта (вверху справа), размер объекта (внизу слева), форма объекта (внизу посередине) и угол поворота камеры (внизу справа).

    Цель реализации библиотеки — проведение крупномасштабного эмперического исследования нескольких моделей вариационных автоенкодеров, предложенных сообществом для распутывания представлений без учителя. Это позволило оценить модели единым образом.

    Содержимое библиотеки

    Модели, включенные в исследование:

    • BetaVAE
    • FactorVAE
    • BetaTCVAE
    • DIP-VAE I / II
    • AnnealedVAE

    Датасеты, на которых обучались модели:

    • dSprites
    • Color-dSprites
    • Noisy-dSprites
    • Scream-dSprites
    • SmallNORB
    • Cars3D
    • Shapes3D

    Также результаты оценивались разными метриками: BetaVAE score, FactorVAE score, Mutual Information Gap, SAP score, DCI и MCE.

    Выводы

    Основные выводы исследования, сформулированные исследователями:

    • Нет каких-либо эмпирических доказательств того, что рассматриваемые модели могут использоваться для надежного изучения распутанных представлений без учителя, поскольку случайные начальные числа и гиперпараметры имеют большее значение, чем выбор модели.
    На графиках показано распределение значений метрики FactorVAE, полученных разными моделями на датасете Shapes3D. На правом графике показано распределение значений при изменении моделей, а на правом — при изменении параметра регуляризации в модели FactorVAE. Модели: 0 — BetaVAE, 1 — FactorVAE, 2 — BetaTCVAE, 3 — DIP-VAE-I, 4 — DIP-VAE-II, 5 — AnnealedVAE.
    • Для рассматриваемых моделей и датасетов нет возможности проверить предположение, что распутывание полезно для последующих задач. Например, что с распутанными представлениями можно обучаться на меньшем количестве размеченных наблюдений.

    В Google AI подсчитали, что воспроизведение обучения всех моделей в исследовании потребует вычислительных затрат приблизительно в 2,5 года работы GPU. Таким образом, исследование сильно облегчило задачу для сообщества.