Microsoft ViSNet: предсказание активности молекул

3 марта 2024

Microsoft ViSNet: предсказание активности молекул

Microsoft опубликовала ViSNet – графовую нейросеть, моделирующую геометрию сложных молекул для предсказания их активности. ViSNet может значительно ускорить поиск и изучение новых лекарств. Моделирование молекулярной геометрии позволяет предсказывать, как молекулярные…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

NVIDIA Eureka: агент для автономного обучения роботов

22 октября 2023

NVIDIA Eureka: агент для автономного обучения роботов

NVIDIA представила Eureka – агента на базе GPT-4 c открытым исходным кодом, обучающего роботов сложным навыкам, таким как выполнение трюков и работу с ножницами. Большие языковые модели ранее уже показали…

Microsoft AutoGen: фреймворк для настройки LLM-агентов

8 октября 2023
AutoGen framework

Microsoft AutoGen: фреймворк для настройки LLM-агентов

Microsoft представила AutoGen, open-source библиотеку для создания и настройки LLM-агентов – отдельных сеансов больших языковых моделей, которые могут взаимодействовать друг с другом для совместного решения задач. LLM-агенты – перспективная область…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Code Llama: что умеет и как использовать state-of-the-art в написании кода

28 августа 2023
code llama model

Code Llama: что умеет и как использовать state-of-the-art в написании кода

Модель Code Llama — дообученная Llama 2 для написания, завершения и исправления кода, распространяемая бесплатно для коммерческих и исследовательских целей. Code Llama ускоряет написание кода, снижает порог входа для начинающих…

Google VRDU: обучение моделей пониманию содержания документов

27 августа 2023
google vrdu 2

Google VRDU: обучение моделей пониманию содержания документов

Google опубликовала в открытом доступе VRDU – датасет и бенчмарк для обучения моделей пониманию содержания документов. VRDU нацелен на ускорение развития моделей, обрабатывающих сложные документы для повышения эффективности бизнес-процессов и…

Arthur Bench: фреймворк для оценки языковых моделей

20 августа 2023
arthur bench

Arthur Bench: фреймворк для оценки языковых моделей

Американский стартап Arthur опубликовал в открытом доступе фреймворк Bench для оценки и сравнения производительности больших языковых моделей. Инструмент позволит пользователям выбрать языковую модель, наиболее подходящую для решения конкретной задачи, укажет…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

Audiocraft: open source библиотека для генерации музыки и звуков

4 августа 2023
audiocraft

Audiocraft: open source библиотека для генерации музыки и звуков

Audiocraft — это PyTorch-библиотека с открытым исходным кодом для генерации музыки и звуков из текста, предназначенная для исследований в области генерации аудио с использованием глубокого обучения. Разработчики предоставили код двух…

Stability AI представила модель Stable Diffusion SDXL 1.0

26 июля 2023
Stable Diffusion SDXL 1.0

Stability AI представила модель Stable Diffusion SDXL 1.0

Компания Stability AI сегодня объявила о выпуске Stable Diffusion 1.0 XL, новой версии популярной модели для генерации изображений. SDXL 1.0 представляет собой базовую модель с 3,5 миллиарда параметров и пайплайн…

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

19 июля 2023
Llama 2 update

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

Новое поколение моделей Llama — это три большие языковые модели Llama 2 c 7, 13 и 70 миллиардами параметров, и дообученные для ведения диалогов модели Llama-2-Chat 7B, 34B и 70B.…

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

13 июля 2023
LongLLAMA FOT

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста. Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA…