MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки.

В основе датасета MASSIVE лежит концепция многоязычного понимания естественного языка, в которой единая модель машинного обучения может анализировать и понимать входные данные из многих типологически разнообразных языков. Изучая общее представление данных, охватывающее языки, модель может передавать знания с языков с большим количеством обучающих данных на те, в которых обучающих данных недостаточно. Датасет состоит из 1 миллиона размеченных текстов и исходного кода, который предоставляет примеры того, как выполнять массовое многоязычное моделирование.

MASSIVE – это параллельный набор данных, что означает, что каждое высказывание дается на всех 51 языках. Это позволяет моделям изучать общие представления высказываний с одинаковыми намерениями, облегчая межъязыковое обучение задачам понимания естественного языка, а также позволяет адаптироваться к другим задачам НЛП, таким как машинный перевод, многоязычное перефразирование, лингвистический анализ императивных морфологий и многое другое.

Данные охватывают 18 доменов, 60 типов и 55 категорий высказываний. MASSIVE был собран профессиональными переводчиками.