fbpx
  • MT-NLG: генеративная языковая модель Microsoft и NVIDIA

    Языковая модель MT-NLG, разработанная Microsoft и NVIDIA, обладает 530 миллиардами параметров, что в 3 раза больше, чем у GPT-3. MT-NLG состоит из 105 слоев и превосходит все существующие модели обработки естественного языка.

    Обучение модели выполнялось на суперкомпьютере NVIDIA Selene, состоящем из 560 серверов DGX, в каждом из которых размещено по 8 графических процессоров A100 с 432 тензорными ядрами и 80 Гб оперативной памяти.

    Обучающий датасет The Pile имел размер 1.5 Тб и состоял из нескольких сотен млрд единиц текстовых данных, взятых из 11 баз данных, включая Википедию и PubMed.

    MT-NLG продемонстрировала рекордно высокую точность в следующих тестах: предсказание завершения текста по смыслу, понимание прочитанного, генерация логических выводов, создание заключений на естественном языке, различение смысла слов с несколькими значениями.

    Любопытно, что MT-NLG, согласно заявлениям разработчиков, продемонстрировала понимание простейшей математики. Также разработчики модели предупредили, что она обладает предвзятостью, свойственной всем языковым моделям.
    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии