fbpx
  • Turing-NLG: в Microsoft обучили языковую модель с 17 миллиардами параметров

    Turing Natural Language Generation (T-NLG) — это языковая модель с 17 миллиардами параметров, которую обучили исследователи из Microsoft. На данный момент это самая крупная языковая модель из существующих. T-NLG обходит state-of-the-art подходs на нескольких задачах из обработки естественного языка. Исследователи использовали библиотеку DeepSpeed и оптимизатор ZeRO, чтобы ускорить обучение модели. DeepSpeed — это библиотека для распределенного обучения DL моделей. Библиотека совместима с PyTorch. На данный момент модель находится в закрытом доступе.

    Крупные языковые модели, как BERT и GPT-2, с миллиардами параметров стали state-of-the-art подходами на большинстве NLP задач. Среди задач — вопросно-ответная система, диалоговые агенты и понимание документов (document understanding).

    Генеративные модели естественного языка могут применяться для ассистирования контент-мейкеров и для улучшения пользовательского опыта пользователей виртуальных ассистентов. Последние исследования в обработке естественного языка показывали, что увеличение размера модели положительно влияет на ее качество. Исследователи из Microsoft решили обучить модель, размер которой превысит размеры предыдущих моделей.

    Предобучение T-NLG

    Любую модель с более чем 1.3 миллиардом параметров нельзя поместить на единственную GPU. Это приводит к необходимости распараллелить процесс обучения модели на несколько GPU. Чтобы предобучить T-NLG, исследователи использовали:
    NVIDIA DGX-2 систему, в которой GPU связаны с собой с помощью InfiniBand, что ускоряет взаимодействие между разными GPU;
    Tensor slicing, чтобы разделить модель на 4 NVIDIA V100 GPU;
    Библиотеку DeepSpeed и оптимизатор ZeRO;

    Итоговая модель имеет 78 слоев Трансформера с скрытой размерностью 4256 и 28 attention heads. Чтобы результаты были сравнимы с Megatron-LM, исследователи предобучали модель с теми же гиперпараметрами.

    Сравнение перплексий на валидационном наборе данных