TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при переходе от одного объекта данных к другому. С помощью TracIn можно находить ошибки в разметке данных и выбросы. Кроме того, метод позволяет объяснять предсказания на примере объектов из обучающей выборки. Подход предложили исследователи из Google AI.
Зачем это нужно
Качество данных для обучения ML моделей значительно влияет на предсказательную способность моделей. Одна из метрик качества данных — это степень влияния объекта данных на предсказания модели. Вычисление такой метрики для нейросетевых моделей усложняется растущим размером моделей, признаками и датасетами.
Предыдущие подходы для рассчета метрики влияния основывались на:
- изменениях в точности модели, если обучить ее заново без одно или более объектов из обучающей выборки;
- статистических методах (функциях влияния);
- на методах представления, которые декомпозируют предсказание на взвешенную комбинацию обучающих примеров
Эти методы не масштабируются на крупномасштабные нейросетевые модели. TracIn решает ограничения в масштабировании.
Подробнее про алгоритм работы подхода
TraceIn — это скалярное произведение градиентов функции потерь на обучающем примере и на тестовом примере, взвешенное параметром скорости обучения (learning rate) на разных этапах обучениях модели и просуммированное. Метод не требует использования стохастического градиентного спуска в модели. TraceIn адаптируем для любого набора данных и архитектуры нейросети.