RECCON: датасет для распознавания причины эмоций в тексте

RECCON — это датасет для распознавания причины эмоций в тексте. Создатели предлагают две задачи, которые можно решать с помощью датасета: извлечение каузальных диапазонов в тексте и извлечения каузального следствия эмоции.

Зачем это нужно

Распознавание причины эмоций в тексте является фундаментальной темой исследования в обработке естественного языка. Открытия в этой области могут потенциально улучшить интерпретируемость и качество моделей, которые используют данные эмоций.

Задачу формулируют следующим образом: имея высказывание, размеченное эмоцией, необходимо извлечь отрывки текста из истории диалога так, что бы они в полной мере представляли причины данной эмоции.

Подробнее про датасет

RECCON основывается на двух датасетах с разговорами: IEMOCAP и DailyDialog. Оба датасета имеют разметку эмоций на уровне высказываний. IEMOCAP — это датасет с диалогами, размеченными шестью эмоциями: счастливый, грустный, нейтральный, злой, воодушевленный и разочарованный. Всего в датасете 16 уникальных ситуаций диалога. В RECCON попало по одному диалогу для каждой ситуации.

DailyDialog — это датасет с естественными разговорами людей, который покрывает различные темы из обыденной жизни. Датасет размечен эмоциями: злости, отвращения, страха, счастья, нейтральной, грусти и удивления. При этом данные в датасете несбалансированы — 83% лейблов являются эмоционально нейтральными. Создатели вручную отобрали диалоги, которые содержат хотя бы по 4 не нейтральных высказывания.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt