Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

датасет диалогов Amazon Mechanical Turk

Commonsense-Dialogues — датасет диалогов Amazon, содержащий 11 000 примеров общения из повседневной жизни. Датасет диал нацелен на обучение моделей понимать скрытые смыслы реплик.

На сегодняшний день ИИ-ассистенты плохо справляются с распознаванием эмоций и выделением ключевого смысла реплики. Например, если кто-то говорит: “Завтра я собираюсь выступить перед тысячью человек”, слушатель может сделать вывод, что его собеседник нервничает, и ответить: «Расслабься, у тебя все получится отлично!”

Для того, чтобы обучить модели ассистентов лучше распознавать смысл реплик, Amazon разработал датасет диалогов Commonsense-Dialogues из 11 000 токенов, собранных с помощью Amazon Mechanical Turk. Сотрудникам AMT давалась определенная тема разговора (левая колонка) и предлагалось записать диалог на данную тему (правая колонка):

датасет диалогов от Amazon

В среднем каждый диалог состоит из 5-6 реплик. Чтобы обеспечить разнообразие датасета, темы диалогов выбирались в соответствии с SocialQA — масштабного бенчмарка различных социальных взаимодействий.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt