FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

11 сентября 2023
persimmon-8b-llm

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили open source языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5. Длинный контекст…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Code Llama: что умеет и как использовать state-of-the-art в написании кода

28 августа 2023
code llama model

Code Llama: что умеет и как использовать state-of-the-art в написании кода

Модель Code Llama — дообученная Llama 2 для написания, завершения и исправления кода, распространяемая бесплатно для коммерческих и исследовательских целей. Code Llama ускоряет написание кода, снижает порог входа для начинающих…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

NVIDIA FlexiCubes: создание 3D-сеток с помощью гибких параметров

13 августа 2023
flexicubes

NVIDIA FlexiCubes: создание 3D-сеток с помощью гибких параметров

NVIDIA разработала FlexiCubes – метод создания 3D-сеток объектов с помощью гибких параметров. Компания утверждает, что FlexiCubes является инновационным алгоритмом, обеспечивающим высочайшее качество сеток для широкого спектра приложений. Последнее поколение алгоритмов…

Audiocraft: open source библиотека для генерации музыки и звуков

4 августа 2023
audiocraft

Audiocraft: open source библиотека для генерации музыки и звуков

Audiocraft — это PyTorch-библиотека с открытым исходным кодом для генерации музыки и звуков из текста, предназначенная для исследований в области генерации аудио с использованием глубокого обучения. Разработчики предоставили код двух…

PIGINet: генерация оптимальной последовательности действий робота

30 июля 2023
robotic tasks piginet

PIGINet: генерация оптимальной последовательности действий робота

Исследователи MIT представили PIGINet – нейросеть для обучения роботов, которая по описанию задачи, изображению сцены и текущему состоянию перебирает возможные варианты действий и выбирает их наиболее оптимальную последовательность. PIGINet нацелен…

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

19 июля 2023
Llama 2 update

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

Новое поколение моделей Llama — это три большие языковые модели Llama 2 c 7, 13 и 70 миллиардами параметров, и дообученные для ведения диалогов модели Llama-2-Chat 7B, 34B и 70B.…

Обновление Google Bard: работа с изображениями и поддержка новых языков

16 июля 2023
google bard

Обновление Google Bard: работа с изображениями и поддержка новых языков

Google Bard обновилась – теперь она работает на 46 языках в более чем 200 странах, включая страны Европы и Бразилию. Новые функции включают работу с изображениями, каталогизацию диалогов и управление…

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

13 июля 2023
LongLLAMA FOT

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста. Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA…

Модель PACGen переносит объект на новую сцену по текстовой подсказке

7 июля 2023
pacgen model

Модель PACGen переносит объект на новую сцену по текстовой подсказке

Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Personalized and Controllable Text-to-Image Generation) для переноса объекта с изображения на новую сцену, сгенерированную по текстовой подсказке. Для этого требуется подать на…

DragGAN: open source модель для манипуляции созданными GAN изображениями

6 июля 2023
dragyourgan

DragGAN: open source модель для манипуляции созданными GAN изображениями

Исследователи из Института Макса Планка, MIT и Google представили подход DragGAN для манипуляции содержимым изображений, созданных с помощью GAN. Достаточно расставить несколько опорных и целевых точек на изображении, и модель…

Модель Phi-1 от Microsoft всего с 1.3B параметров достигла SotA в генерации кода

30 июня 2023
code generation phi-1 model

Модель Phi-1 от Microsoft всего с 1.3B параметров достигла SotA в генерации кода

Исследователи Microsoft Research представили Phi-1 — языковую модель для генерации кода всего с 1,3 миллиардами параметров, которая смогла достигнуть близкого к state-of-the-art уровня генерации кода с помощью собранного авторами датасета.…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023
audiopalm google

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

MAGVIT: open source генеративный видео-трансформер 10 в 1

29 июня 2023
MAGVIT

MAGVIT: open source генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили open source модель генерации видео MAGVIT (Masked Generative Video Transformer). Единая модель MAGVIT способна улучшать FPS, экстраполировать кадры, создавать видео…

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

26 июня 2023
Inflection-1 model by Insflection

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

Стартап Inflection официально представил Inflection-1 — большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на которой основан ChatGPT), а обучение проводилось «на тысячах»…

MusicGen: open source нейросеть для создания музыки в любых жанрах

13 июня 2023
musicgen

MusicGen: open source нейросеть для создания музыки в любых жанрах

MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по…

ConPLex: языковая модель для разработки лекарств

11 июня 2023
ConPLex

ConPLex: языковая модель для разработки лекарств

ConPLex – языковая модель, обученная анализировать химические базы данных для поиска потенциальных лекарств-молекул, наилучшим образом взаимодействующих с определенным белком-мишенью. Модель позволяет исследовать более 100 миллионов соединений за сутки и, таким…