Taskmaster-2: датасет с диалогами от Google Research

Taskmaster-2 — это датасет с 17,289 диалогов на 7 тем: рестораны, заказ еды, кино, отели, полеты, музыка и спорт. Все диалоги в датасете собирали с помощью системы Wizard of Oz (WOz), которую использовали при создании первой версии датасета. В WOz волонтеры через веб-интерфейс играют роль пользователя и взаимодействуют с оператором-человеком, который играет роль персонального ассистента. 

Таким образом, пользователи убеждены, что взаимодействуют с автоматизированной системой, хотя роль персонального ассистента играет человек. Дизайн сбора данных позволяет пользователям выражать свои просьбы в естественной манере. При этом учитывается контекст автоматизированного интерфейса. Как и в Taskmaster-1, в Taskmaster-2 разметили общие переменные в диалогах: имена, время, цены, количества.

Подробнее про датасет 

Набор данных включает в себя 17,289 диалогов, которые описывают 7 тем:

  • рестораны (3276 диалогов);
  • заказ еды (1050 диалогов);
  • фильмы (3047 диалогов);
  • отели (2355 диалогов);
  • полеты (2481 диалог);
  • музыка (1602 диалога)
  • спорт (3478 диалогов)

У каждой беседы в датасете следующая структура:

  • conversation_id: идентификатор диалога;
  • список частей диалога;
  • instruction_id: идентификатор инструкции, которую получил пользователь перед началом диалога

Каждая часть содержит в себе: идентификатор говорящего, сырой текст реплики и список аннотаций реплики.

В то время как в Taskmaster-1 содержатся и одноголосные монологи, и диалоги, Taskmaster-2 состоит исключительно из двухголосных диалогов. Кроме того, вторая версия датасета включает в себя набор диалогов про поиск и рекомендацию, помимо диалогов, которые ориентированы на отдельные задачи. 

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt