Mistral Large 2: новый лидер в генерации кода среди open source моделей

25 июля 2024
Performance accuracy on code generation benchmarks (all models were benchmarked through the same evaluation pipeline)

Mistral Large 2: новый лидер в генерации кода среди open source моделей

Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

24 июля 2024
llama 3.1 human evaluation

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

27 июня 2024
unique 3d

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

Unique3D — это state-of-the модель для генерации 3D сеток по одному изображению. Код и веса Unique3D доступны в открытом доступе. Этот подход создает детализированные и согласованные 3D модели менее чем…

Модель обучили понимать язык с помощью видеозаписей

23 июня 2024
DenseAV Algorithm

Модель обучили понимать язык с помощью видеозаписей

Разработанный в MIT алгоритм DenseAV обучается понимать значение слов и предложений, просматривая видео с разговорами людей. DenseAV превзошел другие алгоритмы в задачах идентификации объектов по их названию. Исследователи решили задачу…

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

21 июня 2024
claude 3.5 sonnet by anthropic

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на…

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

7 июня 2024
qwen2-72b comparison

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

Переход от Qwen1.5 к Qwen2 наконец состоялся, что стало прорывом в области языковых моделей. Новый state-of-the-art среди открытых моделей, Qwen 2, превосходит Llama 3 на большинстве бенчмарков.  Зоопарк моделей Qwen2…

Google Veo: модель генерации и редактирования видео

19 мая 2024
google veo

Google Veo: модель генерации и редактирования видео

Google DeepMind представила генеративную модель Veo, создающую видео длительностью более 60 секунд в разрешении Full HD. Помимо текстовых запросов, модель может принимать на вход изображения и видеоролики. Ключевой особенностью VEO…

Microsoft VASA-1: платформа для анимирования статичных изображений

21 апреля 2024
microsoft vasa-1

Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…

VideoPoet: языковая модель Google для генерации и редактирования видео

23 декабря 2023
videopoet

VideoPoet: языковая модель Google для генерации и редактирования видео

Google представила VideoPoet – языковую модель для мультимодальной работы с видеоконтентом, способную преобразовывать текст и изображение в ролики, стилизовать существующие видео и генерировать аудиодорожки к ним без подсказок. VideoPoet обучает…

Google представила набор языковых моделей Gemini

7 декабря 2023

Google представила набор языковых моделей Gemini

Google сообщила о создании Gemini – набора из трех языковых моделей, превосходящих конкурентов в 30 из 32 бенчмарках. Старшая модель Gemini Ultra доступна через API, средняя Gemini Pro будет использоваться…

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

3 декабря 2023

Нейросеть DeepMind GNoME открыла 2 миллиона новых материалов

DeepMind разработала графовую нейросеть GNoME, прогнозирующую стабильность материалов. GNoME обнаружила 2,2 миллиона новых материалов, 380 тысяч из которых являются стабильными и могут быть применены для разработки компьютерных чипов, аккумуляторов и…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

OpenAI DevDay 2023: GPTs, GPT-4 Turbo и другие обновления от OpenAI

12 ноября 2023
openai devday2023

OpenAI DevDay 2023: GPTs, GPT-4 Turbo и другие обновления от OpenAI

OpenAI представила более десяти продуктов и функций для разработчиков на DevDay 2023. Приводим обзор новых моделей и обновлений API: Модель GPT-4 Turbo обучена на данных до апреля 2023 года и…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

11 сентября 2023
persimmon-8b-llm

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили open source языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5. Длинный контекст…