fbpx
  • MASSIVE: датасет Amazon для многоязычного обучения моделей

    Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки.

    В основе MASSIVE лежит концепция многоязычного понимания естественного языка, в которой единая модель машинного обучения может анализировать и понимать входные данные из многих типологически разнообразных языков. Изучая общее представление данных, охватывающее языки, модель может передавать знания с языков с большим количеством обучающих данных на те, в которых обучающих данных недостаточно. Датасет состоит из 1 миллиона размеченных текстов и исходного кода, который предоставляет примеры того, как выполнять массовое многоязычное моделирование.

    MASSIVE – это параллельный набор данных, что означает, что каждое высказывание дается на всех 51 языках. Это позволяет моделям изучать общие представления высказываний с одинаковыми намерениями, облегчая межъязыковое обучение задачам понимания естественного языка, а также позволяет адаптироваться к другим задачам НЛП, таким как машинный перевод, многоязычное перефразирование, лингвистический анализ императивных морфологий и многое другое.

    Данные охватывают 18 доменов, 60 типов и 55 категорий высказываний. MASSIVE был собран профессиональными переводчиками.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии