MT-NLG: генеративная языковая модель Microsoft и NVIDIA

Языковая модель MT-NLG, разработанная Microsoft и NVIDIA, обладает 530 миллиардами параметров, что в 3 раза больше, чем у GPT-3. MT-NLG состоит из 105 слоев и превосходит все существующие модели обработки естественного языка.

Обучение модели выполнялось на суперкомпьютере NVIDIA Selene, состоящем из 560 серверов DGX, в каждом из которых размещено по 8 графических процессоров A100 с 432 тензорными ядрами и 80 Гб оперативной памяти.

Обучающий датасет The Pile имел размер 1.5 Тб и состоял из нескольких сотен млрд единиц текстовых данных, взятых из 11 баз данных, включая Википедию и PubMed.

MT-NLG продемонстрировала рекордно высокую точность в следующих тестах: предсказание завершения текста по смыслу, понимание прочитанного, генерация логических выводов, создание заключений на естественном языке, различение смысла слов с несколькими значениями.

Любопытно, что MT-NLG, согласно заявлениям разработчиков, продемонстрировала понимание простейшей математики. Также разработчики модели предупредили, что она обладает предвзятостью, свойственной всем языковым моделям.