FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Code Llama: что умеет и как использовать state-of-the-art в написании кода

28 августа 2023
code llama model

Code Llama: что умеет и как использовать state-of-the-art в написании кода

Модель Code Llama — дообученная Llama 2 для написания, завершения и исправления кода, распространяемая бесплатно для коммерческих и исследовательских целей. Code Llama ускоряет написание кода, снижает порог входа для начинающих…

Google VRDU: обучение моделей пониманию содержания документов

27 августа 2023
google vrdu 2

Google VRDU: обучение моделей пониманию содержания документов

Google опубликовала в открытом доступе VRDU – датасет и бенчмарк для обучения моделей пониманию содержания документов. VRDU нацелен на ускорение развития моделей, обрабатывающих сложные документы для повышения эффективности бизнес-процессов и…

Arthur Bench: фреймворк для оценки языковых моделей

20 августа 2023
arthur bench

Arthur Bench: фреймворк для оценки языковых моделей

Американский стартап Arthur опубликовал в открытом доступе фреймворк Bench для оценки и сравнения производительности больших языковых моделей. Инструмент позволит пользователям выбрать языковую модель, наиболее подходящую для решения конкретной задачи, укажет…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

Audiocraft: open source библиотека для генерации музыки и звуков

4 августа 2023
audiocraft

Audiocraft: open source библиотека для генерации музыки и звуков

Audiocraft — это PyTorch-библиотека с открытым исходным кодом для генерации музыки и звуков из текста, предназначенная для исследований в области генерации аудио с использованием глубокого обучения. Разработчики предоставили код двух…

Stability AI представила модель Stable Diffusion SDXL 1.0

26 июля 2023
Stable Diffusion SDXL 1.0

Stability AI представила модель Stable Diffusion SDXL 1.0

Компания Stability AI сегодня объявила о выпуске Stable Diffusion 1.0 XL, новой версии популярной модели для генерации изображений. SDXL 1.0 представляет собой базовую модель с 3,5 миллиарда параметров и пайплайн…

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

19 июля 2023
Llama 2 update

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

Новое поколение моделей Llama — это три большие языковые модели Llama 2 c 7, 13 и 70 миллиардами параметров, и дообученные для ведения диалогов модели Llama-2-Chat 7B, 34B и 70B.…

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

13 июля 2023
LongLLAMA FOT

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста. Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA…

DragGAN: open source модель для манипуляции созданными GAN изображениями

6 июля 2023
dragyourgan

DragGAN: open source модель для манипуляции созданными GAN изображениями

Исследователи из Института Макса Планка, MIT и Google представили подход DragGAN для манипуляции содержимым изображений, созданных с помощью GAN. Достаточно расставить несколько опорных и целевых точек на изображении, и модель…

MAGVIT: open source генеративный видео-трансформер 10 в 1

29 июня 2023
MAGVIT

MAGVIT: open source генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили open source модель генерации видео MAGVIT (Masked Generative Video Transformer). Единая модель MAGVIT способна улучшать FPS, экстраполировать кадры, создавать видео…

PandasAI: анализ данных с помощью языковых моделей

25 июня 2023
PandasAI framework

PandasAI: анализ данных с помощью языковых моделей

PandasAI – библиотека, позволяющая выполнить базовый анализ данных с помощью запросов на естественном языке. Пользователь указывает один или несколько датафреймов и текстовый запрос, а ответ получает в форме нового датафрейма,…

MusicGen: open source нейросеть для создания музыки в любых жанрах

13 июня 2023
musicgen

MusicGen: open source нейросеть для создания музыки в любых жанрах

MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по…

Gorilla: open source модель для вызова 1600+ сторонних API

2 июня 2023
gorilla llm

Gorilla: open source модель для вызова 1600+ сторонних API

Gorilla — модель, обученная на основе LLaMA, которая превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в…

Open-source модель StarCoder генерирует код на 86 языках программирования

10 мая 2023
starcoder

Open-source модель StarCoder генерирует код на 86 языках программирования

StarCoder — это state-of-the-art метод для исправления и генерации кода с помощью нейронных сетей от сообщества исследователей The BigCode, MIT, университета Пенсильвании и Колумбийского университета. StarCoder отличается от предыдущих моделей,…

RedPajama: open-source датасет для обучения больших языковых моделей

20 апреля 2023

RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей. Наиболее эффективные на…

В Canva добавили нейросеть для генерации изображения из текста

12 ноября 2022
canva text to image sample

В Canva добавили нейросеть для генерации изображения из текста

Пользователи Canva теперь могут бесплатно генерировать до 100 изображений в день. Встроенная в редактор Canva нейросеть для генерации изображений по текстовой подсказке основана на text-to-image генераторе Stable Diffusion с открытым…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе датасета…