Zyda: open source датасет объемом 1.3T для обучения языковых моделей

12 июня 2024
zyda dataset composition

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…

Hugging Face и Pollen Robotics показали Reachy2 — open-source робота для работы по дому

10 июня 2024

Hugging Face и Pollen Robotics показали Reachy2 — open-source робота для работы по дому

Hugging Face и Pollen Robotics представили антропоморфного робота Reachy2, обучающий датасет и модель которого опубликованы в открытом доступе. Reachy2 умеет выполнять домашние обязанности и безопасно взаимодействует с людьми и домашними…

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

7 июня 2024
qwen2-72b comparison

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

Переход от Qwen1.5 к Qwen2 наконец состоялся, что стало прорывом в области языковых моделей. Новый state-of-the-art среди открытых моделей, Qwen 2, превосходит Llama 3 на большинстве бенчмарков.  Зоопарк моделей Qwen2…

Microsoft ViSNet: предсказание активности молекул

3 марта 2024
microsoft visnet

Microsoft ViSNet: предсказание активности молекул

Microsoft опубликовала ViSNet – графовую нейросеть, моделирующую геометрию сложных молекул для предсказания их активности. ViSNet может значительно ускорить поиск и изучение новых лекарств. Моделирование молекулярной геометрии позволяет предсказывать, как молекулярные…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

NVIDIA Eureka: агент для автономного обучения роботов

22 октября 2023

NVIDIA Eureka: агент для автономного обучения роботов

NVIDIA представила Eureka – агента на базе GPT-4 c открытым исходным кодом, обучающего роботов сложным навыкам, таким как выполнение трюков и работу с ножницами. Большие языковые модели ранее уже показали…

Microsoft AutoGen: фреймворк для настройки LLM-агентов

8 октября 2023
AutoGen framework

Microsoft AutoGen: фреймворк для настройки LLM-агентов

Microsoft представила AutoGen, open-source библиотеку для создания и настройки LLM-агентов – отдельных сеансов больших языковых моделей, которые могут взаимодействовать друг с другом для совместного решения задач. LLM-агенты – перспективная область…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Code Llama: что умеет и как использовать state-of-the-art в написании кода

28 августа 2023
code llama model

Code Llama: что умеет и как использовать state-of-the-art в написании кода

Модель Code Llama — дообученная Llama 2 для написания, завершения и исправления кода, распространяемая бесплатно для коммерческих и исследовательских целей. Code Llama ускоряет написание кода, снижает порог входа для начинающих…

Google VRDU: обучение моделей пониманию содержания документов

27 августа 2023
google vrdu 2

Google VRDU: обучение моделей пониманию содержания документов

Google опубликовала в открытом доступе VRDU – датасет и бенчмарк для обучения моделей пониманию содержания документов. VRDU нацелен на ускорение развития моделей, обрабатывающих сложные документы для повышения эффективности бизнес-процессов и…

Arthur Bench: фреймворк для оценки языковых моделей

20 августа 2023
arthur bench

Arthur Bench: фреймворк для оценки языковых моделей

Американский стартап Arthur опубликовал в открытом доступе фреймворк Bench для оценки и сравнения производительности больших языковых моделей. Инструмент позволит пользователям выбрать языковую модель, наиболее подходящую для решения конкретной задачи, укажет…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

Audiocraft: open source библиотека для генерации музыки и звуков

4 августа 2023
audiocraft

Audiocraft: open source библиотека для генерации музыки и звуков

Audiocraft — это PyTorch-библиотека с открытым исходным кодом для генерации музыки и звуков из текста, предназначенная для исследований в области генерации аудио с использованием глубокого обучения. Разработчики предоставили код двух…