Как обучить трансформер на одном языке и перенести его на другой

1 ноября 2019

Как обучить трансформер на одном языке и перенести его на другой

Исследователи из DeepMind проверили, как предобученный на данных одного языка трансформер переносится на другой язык. Исследователи публикуют новый датасет с кросс-языковыми парами вопросов и ответов (XQuAD). Датасет состоит из 240…

exBERT: как визуализировать обученный трансформер

16 октября 2019

exBERT: как визуализировать обученный трансформер

exBERT — это интерактивный инструмент для визуализации механизма внимания в обученной языковой модели. Инструмент позволяет исследовать, как языковая модель формирует пространство скрытых представлений. exBERT сопоставляет выбранные пользователем слова на входе…

ALBERT: разработчики из Google оптимизировали размер BERT

30 сентября 2019
google logo

ALBERT: разработчики из Google оптимизировали размер BERT

A LITE BERT (ALBERT) — это оптимизированная версия BERT от Google. Разработчики использовали два метода для снижения количества параметров нейросети: параметризация векторных представлений и обмен весов между слоями нейросети. По…

ParaQG: нейросеть генерирует вопросы к тексту

7 сентября 2019

ParaQG: нейросеть генерирует вопросы к тексту

ParaQG — это нейросетевая модель, которая генерирует вопросы на основе содержания текста. У ParaQG есть демо-версия интерактивного сервиса для генерации вопросов из абзаца текста. ParaQG использует трюки для фильтрации вопросов,…

Нейросеть прошла школьный тест по научным дисциплинам

6 сентября 2019

Нейросеть прошла школьный тест по научным дисциплинам

Aristo — это языковая модель, которая успешно прошла школьный тест по научным дисциплинам за 8-й класс. Модель выдала верные ответы на 90% вопросов в тесте для 8-го класса и на…

В Nvidia обучили языковую модель с 8 миллиардами параметров

14 августа 2019

В Nvidia обучили языковую модель с 8 миллиардами параметров

MegatronLM — это языковая модель с 8.3 миллиардами параметров, которую в Nvidia обучили на 512 GPU. MegatronLM основывается на GPT-2. По размеру MegatronLM больше BERT в 24 раза и больше…

Как сократить размер BERT без значительной потери в точности

12 августа 2019

Как сократить размер BERT без значительной потери в точности

BERT — это одна из state-of-the-art моделей в обработке естественного языка. Несмотря на качество модели, обучение BERT является ресурсоемким как по памяти, так и по скорости обучения. Исследователи из RASA…

Deep TabNine: инструмент на нейросетях, который помогает писать код

19 июля 2019

Deep TabNine: инструмент на нейросетях, который помогает писать код

TabNine — это инструмент для автодополнения кода. Разработчики обучили GPT-2 на 2-х миллионах файлов с GitHub. Текущая версия работает для Python, Java, Haskell и C++. Чтобы получить доступ к бета-версии,…