Commonsense-Dialogues — датасет диалогов Amazon, содержащий 11 000 примеров общения из повседневной жизни. Датасет диал нацелен на обучение моделей понимать скрытые смыслы реплик.
На сегодняшний день ИИ-ассистенты плохо справляются с распознаванием эмоций и выделением ключевого смысла реплики. Например, если кто-то говорит: “Завтра я собираюсь выступить перед тысячью человек”, слушатель может сделать вывод, что его собеседник нервничает, и ответить: «Расслабься, у тебя все получится отлично!”
Для того, чтобы обучить модели ассистентов лучше распознавать смысл реплик, Amazon разработал датасет диалогов Commonsense-Dialogues из 11 000 токенов, собранных с помощью Amazon Mechanical Turk. Сотрудникам AMT давалась определенная тема разговора (левая колонка) и предлагалось записать диалог на данную тему (правая колонка):
В среднем каждый диалог состоит из 5-6 реплик. Чтобы обеспечить разнообразие датасета, темы диалогов выбирались в соответствии с SocialQA — масштабного бенчмарка различных социальных взаимодействий.