StereoSet: датасет для обучения непредвзятых языковых моделей

StereoSet — это датасет для тестирования предобученной языковой модели на непредвзятость. Модель тестируется на наличие стереотипов о гендере, профессии, расе и религии.

Языковые модели отражают реальность. Они обучаются на корпусах естественных текстов и перенимают те смещения(bias) или стереотипы, которые в них содержатся. При этом модель может неявно преувеличить значимость одного из смещений. На выходе получается предобученная языковая модель, которая генерирует текст, в котором могут содержаться стереотипы, которые модель выучила из обучающих данных. Исследователи из MIT, Intel и the Montreal Institute for Learning Algorithms (MILA) предлагают способ оценить степень предвзятости модели.

Что тестирует StereoSet

StereoSet разрабатывали, чтобы тестировать существующие предобученные языковые модели на наличие стереотипных смещений. В датасете есть набор целевых терминов для четырех тем: гендер, профессия, раса и религия. Затем на основе терминов формулировали тесты, которые выявляют смещенность модели. Например, если языковая модель последовательно заканчивает предложение “Наш домработник” словом “мексиканец”, это отражает влияние смещений в обучающем датасете на модель. Ранее OpenAI также проанализировали свою модель GPT-2 на наличие смещений.

Как тестировать на наличие смещений

StereoSet тестирует модели на основе трех метрих:

Оценка языковой модели: тест на то, как хорошо языковая модель генерирует последовательности;
Скор стереотипности: тест на то, как сильно модель предпочитает стереотипный термин при генерации последовательностей. Он измеряется в процентах случаев, когда модель сгенерировала последовательность с целевым термином;
Context association test (CAT), который комбинирует две предыдущих метрики и отражает то, как хорошо нейросеть моделирует последовательности относительно того, насколько часто сгенерированные последовательности стереотипны

По результатам тестов, наиболее смещенной моделью являлась маленькая версия GPT2, которая получила скор 73.0. Наименее смещенной оказалась модель ROBERTA-base со скором 50.5.

Обработка естественного языка

Что тестирует StereoSet

Как тестировать на наличие смещений

Читайте также