• GoEmotions: датасет Google AI для анализа тональности текста

    Датасет Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. GoEmotions предназначен для обучения нейросетей выполнению глубокого анализа тональности текстов.

    Большинство существующих датасетов для классификации эмоций охватывают определенные области (например, заголовки новостей и субтитры к фильмам), имеют небольшой размер и используют шкалу лишь из шести основных эмоций (гнев, удивление, отвращение, радость, страх и печаль). Расширение эмоционального спектра, рассматриваемого в датасетах, могло бы позволить создать более чутких чат-ботов, модели для обнаружения опасного поведения в Интернете, а также улучшить сервисы поддержки клиентов.

    GoEmotions — датасет из 58 000 комментариев Reddit, извлеченных из популярных англоязычных субреддитов и вручную размеченных по 27 категориям эмоций. Это крупнейший на текущий момент датасет для анализа тональности текстов. Категории эмоций были выделены Google совместно с психологами и включают 12 положительных, 11 отрицательных, 4 неоднозначные эмоции и 1 нейтральную, что делает датасет подходящим для решения задач, требующих тонкой дифференциации между различными эмоциями.

    Датасет GoEmotions выпущен вместе с подробным учебным пособием, в котором демонстрируется процесс обучения нейросети (доступной в TensorFlow Model Garden) с использованием GoEmotions и ее применения для задачи предложения эмодзи на основе текста сообщения.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии