RECCON — это датасет для распознавания причины эмоций в тексте. Создатели предлагают две задачи, которые можно решать с помощью датасета: извлечение каузальных диапазонов в тексте и извлечения каузального следствия эмоции.
Зачем это нужно
Распознавание причины эмоций в тексте является фундаментальной темой исследования в обработке естественного языка. Открытия в этой области могут потенциально улучшить интерпретируемость и качество моделей, которые используют данные эмоций.
Задачу формулируют следующим образом: имея высказывание, размеченное эмоцией, необходимо извлечь отрывки текста из истории диалога так, что бы они в полной мере представляли причины данной эмоции.
Подробнее про датасет
RECCON основывается на двух датасетах с разговорами: IEMOCAP и DailyDialog. Оба датасета имеют разметку эмоций на уровне высказываний. IEMOCAP — это датасет с диалогами, размеченными шестью эмоциями: счастливый, грустный, нейтральный, злой, воодушевленный и разочарованный. Всего в датасете 16 уникальных ситуаций диалога. В RECCON попало по одному диалогу для каждой ситуации.
DailyDialog — это датасет с естественными разговорами людей, который покрывает различные темы из обыденной жизни. Датасет размечен эмоциями: злости, отвращения, страха, счастья, нейтральной, грусти и удивления. При этом данные в датасете несбалансированы — 83% лейблов являются эмоционально нейтральными. Создатели вручную отобрали диалоги, которые содержат хотя бы по 4 не нейтральных высказывания.