fbpx
  • FLORES-101: датасет FAIR с переводами текстов на редкие языки

    FLORES-101 — датасет FAIR для оценки и тестирования моделей многоязычного перевода. Датасет содержит 3000 предложений из Википедии, переведенных на 101 язык профессиональными переводчиками, и позволяет работать с 10100 направлениями перевода.

    FLORES-101 дает исследователям быстро тестировать и совершенствовать модели многоязычного перевода, такие как M2M-100 FAIR. Датасет фокусируется на таких языках, как амхарский, монгольский и урду, которые в настоящее время не имеют обширных датасетов для исследований в области обработки естественного языка. FLORES-101 содержит один и тот же набор предложений на всех языках, что позволяет исследователям оценить эффективность любого направления перевода. Каждое предложение сначала переводится профессиональным переводчиком и вручную проверяется редактором. Затем выполняется проверка орфографии, грамматики и пунктуации, а также сравнение с переводами с коммерческих движков. После этого другая группа переводчиков проводит дополнительную оценку качества перевода.

    При разработке датасета FAIR преследовала следующие цели:

    • Акцент на низкоресурсных языках. В отличие от большинства существующих датасетов, более 80% языков, используемых во FLORES-101, в настоящее время являются низкоресурсными, т. е. для них практически отсутствуют данные для обучения моделей.
    • Включение большого количества направлений перевода. Поскольку в датасете один и тот же набор предложений переведен на все языки, его можно использовать для оценки эффективности любого из 10100 различных направлений перевода.
    • Разнообразность контекста предложений. На сегодняшний день многие датасеты содержат тексты одного типа, например, новости. FLORES-101 содержит тексты из различных областей, включая новости, путеводители и книги.
    • Перевод с учетом контекста. Датасет разработан для перевода нескольких предложений с учетом контекста, то есть дает возможность оценить, улучшает ли контекст на уровне документа качество перевода моделью.
    • Обширные метаданные. Во FLORES-101 каждому переводу присвоены такие данные, как ссылки на источник, изображения и тематика текста.
    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии