Deepmind представила универсальную модель Gato

28 мая 2022

Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. DeepMind обучила Gato…

PaLM: языковая модель Google с 540 миллиардами параметров

8 апреля 2022

PaLM: языковая модель Google с 540 миллиардами параметров

Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков. Модель обучена с использованием 6144 тензорных процессоров Google TPU на платформе параллельных…

Texformer: оценка 3D-позы на основе трансформера

7 ноября 2021

Texformer: оценка 3D-позы на основе трансформера

Texformer — фреймворк для оценки 3D-позы по одному изображению с использованием архитектуры трансформера. Точность восстановления позы у Texformer выше, чем у state-of-the-art моделей на основе сверточных нейросетей. Архитектура модели приведена…

Машинное обучение применили для анализа карьерного роста

20 сентября 2021

Машинное обучение применили для анализа карьерного роста

Исследователи c помощью нейросетей изучили периоды высокой активности художников, ученых и режиссеров. Полученные результаты могут использоваться для выявления и развития талантливых подростков в различных областях. В целом ряде творческих областей…

Нейросеть генерирует упражнения для изучения языков по фотографиям

11 сентября 2021
picklang

Нейросеть генерирует упражнения для изучения языков по фотографиям

PickLang — это приложение, которое дает возможность изучать языки самым естественным для человека способом — исследуя окружающий мир. Приложение генерирует упражнения по пользовательским фотографиям в режиме реального времени. В основе…

TransGAN: две Transformer модели как одна GAN

26 февраля 2021

TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории…

Transformer нейросеть распознает текст на изображениях

22 марта 2020

Transformer нейросеть распознает текст на изображениях

Transformer-OCR — нейросетевая модель, которую обучили распознавать надписи на изображениях. Модель обходит существующие state-of-the-art методы на 5 датасетах. Для датасета с изображениями вывесок с закрученным текстом CUTE модель обходит предыдущие…

LaserTagger: state-of-the-art модель для генерации текста от Google AI

3 февраля 2020

LaserTagger: state-of-the-art модель для генерации текста от Google AI

LaserTagger — это нейросетевая модель для генерации текста, которая размечает входную последовательность. Нейросеть рассматривает задачу генерации текста как задачу редактирования текста. Целевые тексты восстанавливаются из входных текстов с помощью трех…

Как обучить трансформер на одном языке и перенести его на другой

1 ноября 2019

Как обучить трансформер на одном языке и перенести его на другой

Исследователи из DeepMind проверили, как предобученный на данных одного языка трансформер переносится на другой язык. Исследователи публикуют новый датасет с кросс-языковыми парами вопросов и ответов (XQuAD). Датасет состоит из 240…

exBERT: как визуализировать обученный трансформер

16 октября 2019

exBERT: как визуализировать обученный трансформер

exBERT — это интерактивный инструмент для визуализации механизма внимания в обученной языковой модели. Инструмент позволяет исследовать, как языковая модель формирует пространство скрытых представлений. exBERT сопоставляет выбранные пользователем слова на входе…

ALBERT: разработчики из Google оптимизировали размер BERT

30 сентября 2019
google logo

ALBERT: разработчики из Google оптимизировали размер BERT

A LITE BERT (ALBERT) — это оптимизированная версия BERT от Google. Разработчики использовали два метода для снижения количества параметров нейросети: параметризация векторных представлений и обмен весов между слоями нейросети. По…

ParaQG: нейросеть генерирует вопросы к тексту

7 сентября 2019

ParaQG: нейросеть генерирует вопросы к тексту

ParaQG — это нейросетевая модель, которая генерирует вопросы на основе содержания текста. У ParaQG есть демо-версия интерактивного сервиса для генерации вопросов из абзаца текста. ParaQG использует трюки для фильтрации вопросов,…

Нейросеть прошла школьный тест по научным дисциплинам

6 сентября 2019

Нейросеть прошла школьный тест по научным дисциплинам

Aristo — это языковая модель, которая успешно прошла школьный тест по научным дисциплинам за 8-й класс. Модель выдала верные ответы на 90% вопросов в тесте для 8-го класса и на…

В Nvidia обучили языковую модель с 8 миллиардами параметров

14 августа 2019

В Nvidia обучили языковую модель с 8 миллиардами параметров

MegatronLM — это языковая модель с 8.3 миллиардами параметров, которую в Nvidia обучили на 512 GPU. MegatronLM основывается на GPT-2. По размеру MegatronLM больше BERT в 24 раза и больше…

Как сократить размер BERT без значительной потери в точности

12 августа 2019

Как сократить размер BERT без значительной потери в точности

BERT — это одна из state-of-the-art моделей в обработке естественного языка. Несмотря на качество модели, обучение BERT является ресурсоемким как по памяти, так и по скорости обучения. Исследователи из RASA…

Deep TabNine: инструмент на нейросетях, который помогает писать код

19 июля 2019

Deep TabNine: инструмент на нейросетях, который помогает писать код

TabNine — это инструмент для автодополнения кода. Разработчики обучили GPT-2 на 2-х миллионах файлов с GitHub. Текущая версия работает для Python, Java, Haskell и C++. Чтобы получить доступ к бета-версии,…