Mistral Large 2: новый лидер в генерации кода среди open source моделей

25 июля 2024
Performance accuracy on code generation benchmarks (all models were benchmarked through the same evaluation pipeline)

Mistral Large 2: новый лидер в генерации кода среди open source моделей

Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

24 июля 2024
llama 3.1 human evaluation

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…

MindsDB: ИИ для работы в базами данных

12 июля 2024
ai for database enterprise

MindsDB: ИИ для работы в базами данных

MindsDB трансформирует интеграцию ИИ с базами данных и позволяет использовать возможности машинного обучения без изменения существующей инфраструктуры данных. Рассказываем, как это работает, преимущества подхода и как начать работу. Ключевые особенности…

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

27 июня 2024
unique 3d

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

Unique3D — это state-of-the модель для генерации 3D сеток по одному изображению. Код и веса Unique3D доступны в открытом доступе. Этот подход создает детализированные и согласованные 3D модели менее чем…

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

12 июня 2024
zyda dataset composition

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…

Hugging Face и Pollen Robotics показали Reachy2 — open-source робота для работы по дому

10 июня 2024

Hugging Face и Pollen Robotics показали Reachy2 — open-source робота для работы по дому

Hugging Face и Pollen Robotics представили антропоморфного робота Reachy2, обучающий датасет и модель которого опубликованы в открытом доступе. Reachy2 умеет выполнять домашние обязанности и безопасно взаимодействует с людьми и домашними…

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

7 июня 2024
qwen2-72b comparison

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

Переход от Qwen1.5 к Qwen2 наконец состоялся, что стало прорывом в области языковых моделей. Новый state-of-the-art среди открытых моделей, Qwen 2, превосходит Llama 3 на большинстве бенчмарков.  Зоопарк моделей Qwen2…

Microsoft ViSNet: предсказание активности молекул

3 марта 2024
microsoft visnet

Microsoft ViSNet: предсказание активности молекул

Microsoft опубликовала ViSNet – графовую нейросеть, моделирующую геометрию сложных молекул для предсказания их активности. ViSNet может значительно ускорить поиск и изучение новых лекарств. Моделирование молекулярной геометрии позволяет предсказывать, как молекулярные…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

NVIDIA Eureka: агент для автономного обучения роботов

22 октября 2023

NVIDIA Eureka: агент для автономного обучения роботов

NVIDIA представила Eureka – агента на базе GPT-4 c открытым исходным кодом, обучающего роботов сложным навыкам, таким как выполнение трюков и работу с ножницами. Большие языковые модели ранее уже показали…

Microsoft AutoGen: фреймворк для настройки LLM-агентов

8 октября 2023
AutoGen framework

Microsoft AutoGen: фреймворк для настройки LLM-агентов

Microsoft представила AutoGen, open-source библиотеку для создания и настройки LLM-агентов – отдельных сеансов больших языковых моделей, которые могут взаимодействовать друг с другом для совместного решения задач. LLM-агенты – перспективная область…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Code Llama: что умеет и как использовать state-of-the-art в написании кода

28 августа 2023
code llama model

Code Llama: что умеет и как использовать state-of-the-art в написании кода

Модель Code Llama — дообученная Llama 2 для написания, завершения и исправления кода, распространяемая бесплатно для коммерческих и исследовательских целей. Code Llama ускоряет написание кода, снижает порог входа для начинающих…