OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

13 сентября 2024
openai o1

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

22 августа 2024

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

21 июня 2024
claude 3.5 sonnet by anthropic

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на…

Dream Machine от Luma AI — нейросеть для создания коротких видео из текста или изображения

14 июня 2024
dream machine luma ai

Dream Machine от Luma AI — нейросеть для создания коротких видео из текста или изображения

Dream Machine от Luma AI — это генеративная нейросеть, предназначенная для создания коротких видео на основе текстовых промтов и изображений. Dream Machine построена на масштабируемой трансформерной архитектуре, которая обучена на…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

29 сентября 2023
TinyML & Efficient DL Computing

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

В последние годы большие языковые и диффузные модели продемонстрировали впечатляющие результаты, но их требовательность к вычислительным ресурсам и потребление памяти ставит перед исследователями и разработчиками серьезные вызовы. Курс TinyML &…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

Prithvi: модель и датасет NASA для анализа экологических явлений

6 августа 2023
prithvi

Prithvi: модель и датасет NASA для анализа экологических явлений

NASA и IBM представили open-source модель Prithvi, которая позволит ученым отслеживать последствия изменения климата, осуществлять мониторинг вырубки лесов, прогнозировать урожайность сельскохозяйственных культур и анализировать выбросы парниковых газов. В рамках миссии…

Модель PACGen переносит объект на новую сцену по текстовой подсказке

7 июля 2023
pacgen model

Модель PACGen переносит объект на новую сцену по текстовой подсказке

Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Personalized and Controllable Text-to-Image Generation) для переноса объекта с изображения на новую сцену, сгенерированную по текстовой подсказке. Для этого требуется подать на…

MAGVIT: open source генеративный видео-трансформер 10 в 1

29 июня 2023
MAGVIT

MAGVIT: open source генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили open source модель генерации видео MAGVIT (Masked Generative Video Transformer). Единая модель MAGVIT способна улучшать FPS, экстраполировать кадры, создавать видео…

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

26 июня 2023
Inflection-1 model by Insflection

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

Стартап Inflection официально представил Inflection-1 — большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на которой основан ChatGPT), а обучение проводилось «на тысячах»…

Deepmind представила универсальную модель Gato

28 мая 2022

Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. DeepMind обучила Gato…

PaLM: языковая модель Google с 540 миллиардами параметров

8 апреля 2022

PaLM: языковая модель Google с 540 миллиардами параметров

Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков. Модель обучена с использованием 6144 тензорных процессоров Google TPU на платформе параллельных…

Texformer: оценка 3D-позы на основе трансформера

7 ноября 2021

Texformer: оценка 3D-позы на основе трансформера

Texformer — фреймворк для оценки 3D-позы по одному изображению с использованием архитектуры трансформера. Точность восстановления позы у Texformer выше, чем у state-of-the-art моделей на основе сверточных нейросетей. Архитектура модели приведена…

Машинное обучение применили для анализа карьерного роста

20 сентября 2021

Машинное обучение применили для анализа карьерного роста

Исследователи c помощью нейросетей изучили периоды высокой активности художников, ученых и режиссеров. Полученные результаты могут использоваться для выявления и развития талантливых подростков в различных областях. В целом ряде творческих областей…

Нейросеть генерирует упражнения для изучения языков по фотографиям

11 сентября 2021
picklang

Нейросеть генерирует упражнения для изучения языков по фотографиям

PickLang — это приложение, которое дает возможность изучать языки самым естественным для человека способом — исследуя окружающий мир. Приложение генерирует упражнения по пользовательским фотографиям в режиме реального времени. В основе…

TransGAN: две Transformer модели как одна GAN

26 февраля 2021

TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории…

FAIR обучили Transformer DETR детектировать объекты на изображении

2 июня 2020

FAIR обучили Transformer DETR детектировать объекты на изображении

DEtection TRansformers (DETR) — это нейросетевой подход для распознавания объектов и паноптической сегментации объектов на изображении. DETR использует в своей основе архитектуру Transformer. Нейросеть выдает сравнимые с state-of-the-art результаты на…

Нейросеть Transformer-OCR распознает текст на изображениях

22 марта 2020

Нейросеть Transformer-OCR распознает текст на изображениях

Transformer-OCR — нейросетевая модель, которую обучили распознавать надписи на изображениях. Модель обходит существующие state-of-the-art методы на 5 датасетах. Для датасета с изображениями вывесок с закрученным текстом CUTE модель обходит предыдущие…

LaserTagger: state-of-the-art модель для генерации текста от Google AI

3 февраля 2020
LaserTagger

LaserTagger: state-of-the-art модель для генерации текста от Google AI

LaserTagger — это нейросетевая модель для генерации текста, которая размечает входную последовательность. Нейросеть рассматривает задачу генерации текста как задачу редактирования текста. Целевые тексты восстанавливаются из входных текстов с помощью трех…