Google опубликовали два датасета с диалогами для обучения виртуальных ассистентов: Coached Conversational Preference Elicitation (CCPE) и Taskmaster-1. Первый набор данных содержит разговоры людей о своих предпочтениях. Второй датасет описывает то, как пользователи говорят о задачах. Использование таких данных для обучения диалоговых систем может сделать разговор с виртуальным ассистентом более похожим на человеческий.
Несмотря на значительный прогресс в последних исследованиях диалоговых систем, они не достигли уровня человека в понимании речи собеседника. Это отчасти связано с недостатком качественных наборов данных для обучения. Существующие датасеты не отражают разнообразие способов общения людей с виртуальным ассистентом. Ограничения возможностей виртуального ассистента предопределяют то, о чем с ним говорит пользователь. Разговор с виртуальным ассистентом, который мы наблюдаем сейчас, не сравним по сложности с разговором между людьми.
Чтобы приблизиться к решению этой задачи, Google опубликовали два набора данных. Оба набора были собраны с помощью Wizard-of-Oz эксперимента, где в разговоре участвуют два человека. Собеседники имеют две роли: пользователи и умный виртуальный ассистент. Разговоры проводятся так, чтобы тот, кто играет роль пользователя, не думал об ограничениях виртуального ассистента и формулировал запросы натурально.
Для обоих датасетов был разработан интерфейс для эксперимента, чтобы имитировать функционал существующих виртуальных ассистентов.
Выявление предпочтений
В CCPE диалоги строились вокруг предпочтений в кинематографе. Участники, играющие роль пользователя, говорят в микрофон. Аудио с микрофона слышит участник, который выступает в роли ассистента, а затем набирает текстовый ответ на реплику пользователя. Реплика проигрывается через text-to-speech систему. Такие разговоры содержат естественные недопонимания и ошибки, которые сложно повторить при генерировании диалога. Из-за этого в CCPE содержатся естественные, но структурированные разговоры о кино-предпочтениях людей.
Исследователи отмечают, что способы, с помощью которые пользователи выражают приязнь, многочисленны. CCPE позволяет оценить масштаб многочисленности. Кроме этого, люди иначе выражают свои запросы, когда просят человека порекомендовать фильм. Этот формат запроса сейчас не отражается в функционале виртуальных ассистентов и агрегаторов фильмов.
Диалог про задачу
Taskmaster-1 использовал ту же структуру эксперимента для сбора данных, что и CCPE, и дополнительно исследователи собрали 7.7 тысяч личных диалогов пользователей. Участники должны были от начала до конца описать диалог с воображаемым ассистентом на тему какой-то конкретной задачи. Количество двусторонних диалогов составило около 5.5 тысяч.