mT5: предобученный мультилингвальный Transformer для 101 языков

mT5 — предобученный мультилингвальный Transformer для 101 языков. mT5 является расширением модели Text-to-Text Transfer Transformer (T5). Архитектуру T5 разработали исследователи из Google AI. mT5 обучался на корпусе веб-страниц из Common Crawl на 101 языках, — mC4. Исследователи опубликовали чекпоинты модели и обучающие данные в репозитории на GitHub.

Подробнее про модель 

Архитектура модели и процедура обучения mT5 схожа с архитектурой и обучением классической T5 модели. mT5 основывается на версии “T5.1.1” модели T5, в которой используют GeGLU нелинейность и предобучают на неразмеченных данных без использования dropout. Данные на разных языках семплировали так, что бы можно было регулировать баланс между редкими и популярными языками веб-страниц. Для этого вычисляли вероятность семплинга текста на определенном языке.

Сравнение характеристик мультилингвальных Transformer-моделей
Распределение количества веб-страниц для всех языков в обучающей выборке

Тестирование работы модели

Работу mT5 сравнивали с state-of-the-art мультилингвальными Transformer-моделями на задачах классификации пары предложений, структурного предсказания и вопросно-ответной системы. Для тестов использовали бенчмарк xtreme. Ниже видно, что предложенная mT5 обходит существующие подходы на всех задачах и по всех метрикам.

Сравнение state-of-the-art моделей
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt