GoEmotions: датасет Google AI для анализа тональности текста

Датасет Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. GoEmotions предназначен для обучения нейросетей выполнению глубокого анализа тональности текстов.

Большинство существующих датасетов для классификации эмоций охватывают определенные области (например, заголовки новостей и субтитры к фильмам), имеют небольшой размер и используют шкалу лишь из шести основных эмоций (гнев, удивление, отвращение, радость, страх и печаль). Расширение эмоционального спектра, рассматриваемого в датасетах, могло бы позволить создать более чутких чат-ботов, модели для обнаружения опасного поведения в Интернете, а также улучшить сервисы поддержки клиентов.

GoEmotions — датасет из 58 000 комментариев Reddit, извлеченных из популярных англоязычных субреддитов и вручную размеченных по 27 категориям эмоций. Это крупнейший на текущий момент датасет для анализа тональности текстов. Категории эмоций были выделены Google совместно с психологами и включают 12 положительных, 11 отрицательных, 4 неоднозначные эмоции и 1 нейтральную, что делает датасет подходящим для решения задач, требующих тонкой дифференциации между различными эмоциями.

Датасет GoEmotions выпущен вместе с подробным учебным пособием, в котором демонстрируется процесс обучения нейросети (доступной в TensorFlow Model Garden) с использованием GoEmotions и ее применения для задачи предложения эмодзи на основе текста сообщения.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt