Преимущества energy-based моделей — генерализирующая способность и простота архитектуры. Но на практике их обучение вызывает сложности. Исследователи из OpenAI предложили способы оптимизации обучения EBM модели на основе MCMC (Marcov Chain Monte Carlo) семплирования и представили результаты работы улучшенной модели на нескольких датасетах: ImageNet32x32, ImageNet128x128, CIFAR-10 и обучение робота движениям руки. Модель выдала сравнимые и высокие результаты в сравнении с остальными архитектурами в задаче генерации изображений.
Кратко про energy-based learning
Energy-based модель (EBM) работает так, что каждому объекту в выборке присваивает “энергию” (ненормализованную вероятность). Любая случайная модель, которая выдает на выходе действительное число для каждого объекта в выборке, может работать в качестве функции энергии (energy function).
Каждой конфигурации переменных устанавливается в соответствие скаляр — энергия. Задачей такой модели будет по конфигурации части переменных, которые получает модель, найти такую конфигурацию недостающих переменных, при которой уровень энергии будет минимальный.
Главная сложность обучения EBM заключается в поиске эффективного метода семплирования из распределения, получившегося на выходе функции энергии.
Предлагаемый метод семплирования
Исследователи OpenAI предлагают использовать Langevin dynamics (метод Markov Chain Monte Carlo, осуществляющий градиентный спуск на функции энергии) для решения проблемы семплирования.
Подход EBM дает теоретическую основу для таких моделей, как традиционные дискриминационные и генеративные подходы, а также сети-преобразователи графов, условные случайные поля, Марковские сети и других методов обучения. Модели на основе энергии способны отвечать на вопросы следующих типов:
- Какое значение Y совместимо с этим X? (Классификация и принятие решений)
- Значение Y1 или Y2 более совместимо с этим X? (ранжирование)
- Совместимо ли это значение Y с X? (обнаружение)
- Какова условная вероятность распределения по Y с учетом X? (оценка условной плотности вероятности)
Для генерации выборок из EBM компания использовала итеративный процесс уточнения, основанный на динамике Ланжевена. В отличие от моделей GAN, VAE и потоковых моделей, этот подход не требует явной нейронной сети для генерации выборок — выборки генерируются неявно.
Комбинация EBM и итеративного уточнения дает следующие преимущества:
- Адаптивность времени обучения
Время семплирования — гиперпараметр модели, который задается вручную: чем больше времени семлируем из распределения, тем более репрезентативной становится подвыборка (повышается разнообразность объектов подвыборки). Однако качество генерируемых моделью изображений увеличивается при увеличении времени семплирования на тестовой подвыборке.
- Независимость от генеративной модели
EBM учится присваивать низкую энергию объектам, не входящим в выборку.
- Композиционность
Модели можно комбинировать, так как каждая из них представляет собой распределение не нормализованных вероятностей.
Обобщение
В качестве теста на избыточность и обобщение, в OpenAI оценили способность обнаруживать изображения, не входящие в общее распределения данных. Для этого выбрали датасеты, подходящие специально для этой задачи, и на них протестировали модели на основе энергии. Было обнаружено, что модели на основе энергии превосходят другие вероятностные модели, такие как потоковые модели и модели авторегрессии. Также проверили классификацию с использованием условных энергетических моделей, и обнаружили, что результирующая классификация показала хорошее обобщение для искусственных состязательных искажений. Несмотря на то, что модель раньше не обучалась классификации, она выполняла классификацию лучше, чем модели, явно обученные против искусственных состязательных искажений.
Результаты и направление будущих исследований
Исследователи также представили сравнение работы EBM и конкурирующих архитектур на задаче генерации изображений:
OpenAI обнаружила, что помимо синтеза изображений, энергетические модели способны порождать устойчивые траектории динамики робота на большом количестве временных шагов. EBM способны генерировать разнообразный набор возможных вариантов будущего, в то время как модели прямого распространения сходятся только к среднему прогнозу.
В качестве дальнейшего направления исследований планируется изучение композиционности energy-based моделей. На первоначальном этапе провели следуюший эксперимент: обучили одну EBM на картинках с объектами разных размеров, которые были зафиксированы в одной позиции, и вторую — на картинках с объектами одного размера, расположенных на разных позициях картинки. Объединенная модель научилась детектировать объекты разных размеров, находящиеся в разных позициях.
Исследователи опубликовали пример работы EBM на ImageNet, код и предобученные модели.