fbpx
  • ParaQG: нейросеть генерирует вопросы к тексту

    ParaQG — это нейросетевая модель, которая генерирует вопросы на основе содержания текста. У ParaQG есть демо-версия интерактивного сервиса для генерации вопросов из абзаца текста. ParaQG использует трюки для фильтрации вопросов, на которые невозможно дать ответ. Фильтруются вопросы с помощью BERT архитектуры. Модель представляет сгенерированные вопросы в сгруппированном формате. В одной группе находятся вопросы с схожим ответом. 

    Генерация синтаксически и семантически валидных и релевантных вопросов из текста имеет множество применений. Ручное придумывание вопросов — это ресурсоемкое занятие, которое требует высокой степени погруженности в содержание текста. Стандартный подход к решению этой задачи — это seq2seq модель. Большинство предыдущих подходов генерируют вопросы только из предложений и ни одна из них не представлена в формате готового сервиса. 

    Что внутри у ParaQG

    ParaQG генерирует вопросы из предложений и абзацев с помощью 4-х шагов:

    1. Анализ абзаца;
    2. Выбор ответа;
    3. Генерация вопроса с оценкой уверенности в вопросе;
    4. Фильтрация вопросов на основании группировки по схожим ответам

    Система сначала анализирует контент текста и оповещает о каких-то символах, которые не были обработаны (например, unicode символы), и ссылках. Ссылки системой не обрабатываются. Затем пользователю предоставляется возможность выбрать ответ из списка кандидатов, который составила система. Кроме этого, пользователь может вручную задать часть текста, по которой хочет, чтобы система сгенерировала вопросы. На следующем этапе части текста, которые являются потенциальным ответом, кодируются и посылаются в модуль генерации вопроса. Модуль генерации вопроса — это seq2seq с динамическими словарями, переиспользуемыми модулями внимания и глобальным модулем внимания. После того как вопросы сгенерированы, они проходят через модуль фильтрации вопросов. Модуль фильтрации вопросов основан на BERT. Оставшиеся вопросы группируются по схожести ответов. В интерфейсе ParaQG есть возможность конфигурации.

    Ключевые шаги в ParaQG

    Детали реализации

    ParaQG состоит из фронтенд-интерфеса, бэкенд генератора вопросов и модуля фильтрации вопросов. Генератор вопросов был обучен на SQuAD 1.0. Исследователи используют предобученные вектора из GLoVe с размерностью 300. В качестве архитектуры используют двухслойную BiLSTM для кодировщика и однослойную — для декодировщика.

    Посмотреть, как работает система, можно в видеозаписи ниже.