Чат-боты станут умнее благодаря комментариям на Reddit

Разработчики FAIR собрали датасет, который ускорит и повысит эффективность обучения диалоговых систем и чат-ботов. Датасет содержит 5 миллионов персонажей и 700 миллионов диалогов с сайта Reddit.

В основе нового датасета набор данных PERSONA—CHAT, который был создан совместно исследователями Монреальского института изучения алгоритмов и командой FAIR, и содержал 1000 персонажей. Датасет имел серьезные недостатки и ограничения.

«PERSONA—CHAT был создан с использованием механизма искусственного сбора данных на базе Mechanical Turk. В результате ни диалоги, ни персонажи не были репрезентативны для реальных взаимодействий пользователей и ботов, контекст оставался ограниченным» — объяснили исследователи в статье.

Чтобы устранить ограничения первого набора данных, исследователи создали новый крупный датасет с 5 миллионами персонажей и 700 миллионами диалогов. Он состоит из комбинаций реальных разговоров пользователей, извлеченных из онлайн—платформы Reddit.

Исследователи обучили диалоговую end-to-end модель на новом датасете.

Задачей исследователей было научить модель давать правильные ответы на вопросы, основываясь на личности отвечающего и контексте.

Persona: [“I like sport,” “I work a lot”]

Context: “I love running.”

Response: “Me too! But only on weekends.”

Persona — личностные установки отвечающего, context — предложение, на которое нужно ответить. Response — это ответ, который даёт модель, опираясь на характеристику личности и контекст.

В будущем исследователи планируют доработать модель для использования в диалоговых системах. Голосовые помощники и чат-боты, обученные на большем количестве данных, смогут вести более плавные и глубокие диалоги с пользователями.

FAIR Обработка естественного языка

Читайте также