Unique3D генерирует 3D сетку из одного изображения за 30 секунд

27 июня 2024
unique 3d

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

Unique3D — это state-of-the модель для генерации 3D сеток по одному изображению. Код и веса Unique3D доступны в открытом доступе. Этот подход создает детализированные и согласованные 3D модели менее чем…

Модель обучили понимать язык с помощью видеозаписей

23 июня 2024
DenseAV Algorithm

Модель обучили понимать язык с помощью видеозаписей

Разработанный в MIT алгоритм DenseAV обучается понимать значение слов и предложений, просматривая видео с разговорами людей. DenseAV превзошел другие алгоритмы в задачах идентификации объектов по их названию. Исследователи решили задачу…

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

21 июня 2024
claude 3.5 sonnet by anthropic

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на…

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

7 июня 2024
qwen2-72b comparison

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

Переход от Qwen1.5 к Qwen2 наконец состоялся, что стало прорывом в области языковых моделей. Новый state-of-the-art среди открытых моделей, Qwen 2, превосходит Llama 3 на большинстве бенчмарков.  Зоопарк моделей Qwen2…

Google Veo: модель генерации и редактирования видео

19 мая 2024
google veo

Google Veo: модель генерации и редактирования видео

Google DeepMind представила генеративную модель Veo, создающую видео длительностью более 60 секунд в разрешении Full HD. Помимо текстовых запросов, модель может принимать на вход изображения и видеоролики. Ключевой особенностью VEO…

Microsoft VASA-1: платформа для анимирования статичных изображений

21 апреля 2024
microsoft vasa-1

Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…

VideoPoet: языковая модель Google для генерации и редактирования видео

23 декабря 2023
videopoet

VideoPoet: языковая модель Google для генерации и редактирования видео

Google представила VideoPoet – языковую модель для мультимодальной работы с видеоконтентом, способную преобразовывать текст и изображение в ролики, стилизовать существующие видео и генерировать аудиодорожки к ним без подсказок. VideoPoet обучает…

Google представила набор языковых моделей Gemini

7 декабря 2023

Google представила набор языковых моделей Gemini

Google сообщила о создании Gemini – набора из трех языковых моделей, превосходящих конкурентов в 30 из 32 бенчмарках. Старшая модель Gemini Ultra доступна через API, средняя Gemini Pro будет использоваться…

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

3 декабря 2023

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

DeepMind разработала графовую нейросеть GNoME, прогнозирующую стабильность материалов. GNoME обнаружила 2,2 миллиона новых материалов, 380 тысяч из которых являются стабильными и могут быть применены для разработки компьютерных чипов, аккумуляторов и…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

OpenAI DevDay 2023: GPTs, GPT-4 Turbo и другие обновления от OpenAI

12 ноября 2023
openai devday2023

OpenAI DevDay 2023: GPTs, GPT-4 Turbo и другие обновления от OpenAI

OpenAI представила более десяти продуктов и функций для разработчиков на DevDay 2023. Приводим обзор новых моделей и обновлений API: Модель GPT-4 Turbo обучена на данных до апреля 2023 года и…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

11 сентября 2023
persimmon-8b-llm

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили open source языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5. Длинный контекст…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…