Microsoft VASA-1: платформа для анимирования статичных изображений

21 апреля 2024
microsoft vasa-1

Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…

VideoPoet: языковая модель Google для генерации и редактирования видео

23 декабря 2023
videopoet

VideoPoet: языковая модель Google для генерации и редактирования видео

Google представила VideoPoet – языковую модель для мультимодальной работы с видеоконтентом, способную преобразовывать текст и изображение в ролики, стилизовать существующие видео и генерировать аудиодорожки к ним без подсказок. VideoPoet обучает…

Google представила набор языковых моделей Gemini

7 декабря 2023

Google представила набор языковых моделей Gemini

Google сообщила о создании Gemini – набора из трех языковых моделей, превосходящих конкурентов в 30 из 32 бенчмарках. Старшая модель Gemini Ultra доступна через API, средняя Gemini Pro будет использоваться…

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

3 декабря 2023

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

DeepMind разработала графовую нейросеть GNoME, прогнозирующую стабильность материалов. GNoME обнаружила 2,2 миллиона новых материалов, 380 тысяч из которых являются стабильными и могут быть применены для разработки компьютерных чипов, аккумуляторов и…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

OpenAI DevDay 2023: GPTs, GPT-4 Turbo и другие обновления от OpenAI

12 ноября 2023
openai devday2023

OpenAI DevDay 2023: GPTs, GPT-4 Turbo и другие обновления от OpenAI

OpenAI представила более десяти продуктов и функций для разработчиков на DevDay 2023. Приводим обзор новых моделей и обновлений API: Модель GPT-4 Turbo обучена на данных до апреля 2023 года и…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

11 сентября 2023
persimmon-8b-llm

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили open source языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5. Длинный контекст…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Code Llama: что умеет и как использовать state-of-the-art в написании кода

28 августа 2023
code llama model

Code Llama: что умеет и как использовать state-of-the-art в написании кода

Модель Code Llama — дообученная Llama 2 для написания, завершения и исправления кода, распространяемая бесплатно для коммерческих и исследовательских целей. Code Llama ускоряет написание кода, снижает порог входа для начинающих…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

NVIDIA FlexiCubes: создание 3D-сеток с помощью гибких параметров

13 августа 2023
flexicubes

NVIDIA FlexiCubes: создание 3D-сеток с помощью гибких параметров

NVIDIA разработала FlexiCubes – метод создания 3D-сеток объектов с помощью гибких параметров. Компания утверждает, что FlexiCubes является инновационным алгоритмом, обеспечивающим высочайшее качество сеток для широкого спектра приложений. Последнее поколение алгоритмов…

Audiocraft: open source библиотека для генерации музыки и звуков

4 августа 2023
audiocraft

Audiocraft: open source библиотека для генерации музыки и звуков

Audiocraft — это PyTorch-библиотека с открытым исходным кодом для генерации музыки и звуков из текста, предназначенная для исследований в области генерации аудио с использованием глубокого обучения. Разработчики предоставили код двух…

PIGINet: генерация оптимальной последовательности действий робота

30 июля 2023
robotic tasks piginet

PIGINet: генерация оптимальной последовательности действий робота

Исследователи MIT представили PIGINet – нейросеть для обучения роботов, которая по описанию задачи, изображению сцены и текущему состоянию перебирает возможные варианты действий и выбирает их наиболее оптимальную последовательность. PIGINet нацелен…