Как обучать модель с несколькими функциями потерь одновременно

Исследователи из Google AI предложили метод для обучения модели на множестве функций потерь одновременно. Loss-conditional обучение помогает при отборе оптимального распределения коэффициентов в функции потерь.

В части задач машинного обучения оценку модели нельзя выразить в единственном числе. Например, модель для сжатия изображения должна одновременно минимизировать размер сжатого изображения и максимизировать его качество. Часто невозможно одновременно оптимизировать все интересующие переменные, потому как они противоречат друг другу или из-за ограничений в обучении модели. 

Ограничения взвешенной суммы в функции потерь

Стандартным подходом для обучения модели, которая оптимизирует несколько характеристик, является минимизация функции потерь, в которой все параметры суммируются с определенными весами. В случае с сжатием изображений функция потерь включала бы в себя два параметра, которые отражали бы качество изображения и уровень сжатия. Веса параметров в функции потерь влияют на результат обучения модели. 

Если необходимо сравнить разное распределение весов в функции потерь, принято обучать несколько моделей с разными функциями потерь. Такой подход требует траты ресурсов на обучение и инференс нескольких моделей. Чтобы решить эту проблему, исследователи предлагают обучать одну модель. Модель учитывает функции потерь с разным распределением весов.

Loss-Conditional обучение

Идея метода заключается в том, что бы обучить одну модель, которая покрывает все возможные варианты распределения коэффициентов для параметров функции потерь. Такой формат обучения позволяет сократить требуемые ресурсы на обучение и тестирование моделей.

Обучение, которое обусловлено функцией потерь, состоит из двух шагов:

  1. Модель обучается на распределении функций потерь, а не на единственной функции потерь;
  2. Выходы модели соотносятся с вектором коэффициентов для параметров функции потерь

Так, во время инференса модели можно менять вектор с распределением весов параметров функции потерь. Это позволяет смещаться в пространств моделей с разными весами для параметров функции потерь.

Обзор loss-conditional обучения
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt