HateXplain: датасет для интерпретируемого распознавания хейтспича

HateXplain — это датасет для обучения моделей распознавания оскорблений в тексте. Датасет собирали исследователи из Indian Institute of Technology и University of Hamburg. Датасет разрабатывали так, что бы учитывать метрики интерпретируемости моделей распознавания. 

Зачем это нужно 

Хейтспич — это комплексная проблема на онлайн социальных площадках. Сейчас фокус исследовательского сообщества часто направлен на разработку новых методов распознавания хейтспича. При этом мало вниманию уделяют исследованию смещений в данных и интерпретируемости моделей. HateXplain призван спровоцировать исследования этих малоизученных аспектов распознавания хейтспича.

Подробнее про датасет 

Всего в датасете 20148 текстовых поста. Каждый пост в датасете имеет три типа аннотации:

  • Базовая: разметка класса текста (хейт, оскорбление или нейтральный);
  • Целевое сообщество для оскорбления;
  • Повод: части текста, которые являются основополагающими причинами оскорбления

Тестирование существующих подходов

Исследователи протестировали state-of-the-art модели на датасете. В то время как с задачей классификации тональности текста модели справляются хорошо, они плохо справляются с интерпретацией тональности. В качестве метрик интерпретируемости использовали model plausibility и faithfulness.

Сравнения работы моделей, обученных на датасете
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt