Dynabench: платформа для тестирования моделей от FAIR

Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно. Dynabench разрабатывали в FAIR.

В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто обмануть модель человеку. Это является более стабильным индикатором качества модели, чем текущие методы оценки. Метрика лучше отражает поведение модели при взаимодействии с человеком, что является наиболее частым юзкейсом для ML-моделей.

На основе исторических данных использования Dynabench, платформа трекает, какие примеры данных обманывают модели и приводят к некорректным предсказаниям. Эти примеры становятся частью более сложных датасетов, на которых тренируются более устойчивые модели. Затем эти обновлённые модели становятся стандартом, для которых ищутся примеры данных, которые приводят к неверным предсказанием. Так, платформа позволяет итеративно улучшать качество моделей.

В основе Dynabench является научным экспериментом с целью выяснить, может ли сообщество разработчиков лучше оценивать возможности моделей и быстрее улучшать их качество. На данный момент платформа поддерживает оценку качества для моделей, которые решают 4 задачи в NLP: