«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

29 сентября 2023
TinyML & Efficient DL Computing

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

В последние годы большие языковые и диффузные модели продемонстрировали впечатляющие результаты, но их требовательность к вычислительным ресурсам и потребление памяти ставит перед исследователями и разработчиками серьезные вызовы. Курс TinyML &…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

Prithvi: модель и датасет NASA для анализа экологических явлений

6 августа 2023
prithvi

Prithvi: модель и датасет NASA для анализа экологических явлений

NASA и IBM представили open-source модель Prithvi, которая позволит ученым отслеживать последствия изменения климата, осуществлять мониторинг вырубки лесов, прогнозировать урожайность сельскохозяйственных культур и анализировать выбросы парниковых газов. В рамках миссии…

Модель PACGen переносит объект на новую сцену по текстовой подсказке

7 июля 2023
pacgen model

Модель PACGen переносит объект на новую сцену по текстовой подсказке

Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Personalized and Controllable Text-to-Image Generation) для переноса объекта с изображения на новую сцену, сгенерированную по текстовой подсказке. Для этого требуется подать на…

MAGVIT: open source генеративный видео-трансформер 10 в 1

29 июня 2023
MAGVIT

MAGVIT: open source генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили open source модель генерации видео MAGVIT (Masked Generative Video Transformer). Единая модель MAGVIT способна улучшать FPS, экстраполировать кадры, создавать видео…

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

26 июня 2023
Inflection-1 model by Insflection

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

Стартап Inflection официально представил Inflection-1 — большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на которой основан ChatGPT), а обучение проводилось «на тысячах»…

Deepmind представила универсальную модель Gato

28 мая 2022

Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. DeepMind обучила Gato…

PaLM: языковая модель Google с 540 миллиардами параметров

8 апреля 2022

PaLM: языковая модель Google с 540 миллиардами параметров

Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков. Модель обучена с использованием 6144 тензорных процессоров Google TPU на платформе параллельных…

Texformer: оценка 3D-позы на основе трансформера

7 ноября 2021

Texformer: оценка 3D-позы на основе трансформера

Texformer — фреймворк для оценки 3D-позы по одному изображению с использованием архитектуры трансформера. Точность восстановления позы у Texformer выше, чем у state-of-the-art моделей на основе сверточных нейросетей. Архитектура модели приведена…

Машинное обучение применили для анализа карьерного роста

20 сентября 2021

Машинное обучение применили для анализа карьерного роста

Исследователи c помощью нейросетей изучили периоды высокой активности художников, ученых и режиссеров. Полученные результаты могут использоваться для выявления и развития талантливых подростков в различных областях. В целом ряде творческих областей…

Нейросеть генерирует упражнения для изучения языков по фотографиям

11 сентября 2021
picklang

Нейросеть генерирует упражнения для изучения языков по фотографиям

PickLang — это приложение, которое дает возможность изучать языки самым естественным для человека способом — исследуя окружающий мир. Приложение генерирует упражнения по пользовательским фотографиям в режиме реального времени. В основе…

TransGAN: две Transformer модели как одна GAN

26 февраля 2021

TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории…

FAIR обучили Transformer DETR детектировать объекты на изображении

2 июня 2020

FAIR обучили Transformer DETR детектировать объекты на изображении

DEtection TRansformers (DETR) — это нейросетевой подход для распознавания объектов и паноптической сегментации объектов на изображении. DETR использует в своей основе архитектуру Transformer. Нейросеть выдает сравнимые с state-of-the-art результаты на…

Нейросеть Transformer-OCR распознает текст на изображениях

22 марта 2020

Нейросеть Transformer-OCR распознает текст на изображениях

Transformer-OCR — нейросетевая модель, которую обучили распознавать надписи на изображениях. Модель обходит существующие state-of-the-art методы на 5 датасетах. Для датасета с изображениями вывесок с закрученным текстом CUTE модель обходит предыдущие…

LaserTagger: state-of-the-art модель для генерации текста от Google AI

3 февраля 2020
LaserTagger

LaserTagger: state-of-the-art модель для генерации текста от Google AI

LaserTagger — это нейросетевая модель для генерации текста, которая размечает входную последовательность. Нейросеть рассматривает задачу генерации текста как задачу редактирования текста. Целевые тексты восстанавливаются из входных текстов с помощью трех…

Как обучить трансформер на одном языке и перенести его на другой

1 ноября 2019

Как обучить трансформер на одном языке и перенести его на другой

Исследователи из DeepMind проверили, как предобученный на данных одного языка трансформер переносится на другой язык. Исследователи публикуют новый датасет с кросс-языковыми парами вопросов и ответов (XQuAD). Датасет состоит из 240…

exBERT: как визуализировать обученный трансформер

16 октября 2019

exBERT: как визуализировать обученный трансформер

exBERT — это интерактивный инструмент для визуализации механизма внимания в обученной языковой модели. Инструмент позволяет исследовать, как языковая модель формирует пространство скрытых представлений. exBERT сопоставляет выбранные пользователем слова на входе…

ALBERT: разработчики из Google оптимизировали размер BERT

30 сентября 2019
google logo

ALBERT: разработчики из Google оптимизировали размер BERT

A LITE BERT (ALBERT) — это оптимизированная версия BERT от Google. Разработчики использовали два метода для снижения количества параметров нейросети: параметризация векторных представлений и обмен весов между слоями нейросети. По…

ParaQG: нейросеть генерирует вопросы к тексту

7 сентября 2019

ParaQG: нейросеть генерирует вопросы к тексту

ParaQG — это нейросетевая модель, которая генерирует вопросы на основе содержания текста. У ParaQG есть демо-версия интерактивного сервиса для генерации вопросов из абзаца текста. ParaQG использует трюки для фильтрации вопросов,…