Taskmaster-2 — это датасет с 17,289 диалогов на 7 тем: рестораны, заказ еды, кино, отели, полеты, музыка и спорт. Все диалоги в датасете собирали с помощью системы Wizard of Oz (WOz), которую использовали при создании первой версии датасета. В WOz волонтеры через веб-интерфейс играют роль пользователя и взаимодействуют с оператором-человеком, который играет роль персонального ассистента.
Таким образом, пользователи убеждены, что взаимодействуют с автоматизированной системой, хотя роль персонального ассистента играет человек. Дизайн сбора данных позволяет пользователям выражать свои просьбы в естественной манере. При этом учитывается контекст автоматизированного интерфейса. Как и в Taskmaster-1, в Taskmaster-2 разметили общие переменные в диалогах: имена, время, цены, количества.
Подробнее про датасет
Набор данных включает в себя 17,289 диалогов, которые описывают 7 тем:
- рестораны (3276 диалогов);
- заказ еды (1050 диалогов);
- фильмы (3047 диалогов);
- отели (2355 диалогов);
- полеты (2481 диалог);
- музыка (1602 диалога)
- спорт (3478 диалогов)
У каждой беседы в датасете следующая структура:
- conversation_id: идентификатор диалога;
- список частей диалога;
- instruction_id: идентификатор инструкции, которую получил пользователь перед началом диалога
Каждая часть содержит в себе: идентификатор говорящего, сырой текст реплики и список аннотаций реплики.
В то время как в Taskmaster-1 содержатся и одноголосные монологи, и диалоги, Taskmaster-2 состоит исключительно из двухголосных диалогов. Кроме того, вторая версия датасета включает в себя набор диалогов про поиск и рекомендацию, помимо диалогов, которые ориентированы на отдельные задачи.