Zyda: open source датасет объемом 1.3T для обучения языковых моделей

12 июня 2024
zyda dataset composition

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…

GPT-4 обучили прогнозировать финансовые показатели лучше аналитиков

26 мая 2024
finance market analisys ai model

GPT-4 обучили прогнозировать финансовые показатели лучше аналитиков

Ученые из Чикагского университета продемонстрировали, что большие языковые модели могут проводить анализ финансовой отчетности компаний с точностью, превосходящей точность профессиональных аналитиков. Выводы исследования могут иметь последствия для развития отрасли финансового…

Модель NVIDIA DrEureka обучает роботов быстрее, чем люди

12 мая 2024
nvidia dreureka

Модель NVIDIA DrEureka обучает роботов быстрее, чем люди

NVIDIA продемонстрировала, что большие языковые модели могут ускорить обучение роботов. Роботы с четырьмя конечностями, обученные с помощью модели DrEureka, превосходят стандартные системы обучения на 34% по скорости движения робота в…

Google Gecko: бенчмарк для text-to-image моделей

6 мая 2024
Google Gecko

Google Gecko: бенчмарк для text-to-image моделей

Google DeepMind разработала Gecko – бенчмарк, обеспечивающий более точное и надежное тестирование и сравнение text-to-image моделей, чем существующие подходы. Исследование Google DeepMind выявило скрытые ограничения в том, как в настоящее…

Gretel: крупнейший открытый Text-to-SQL датасет

7 апреля 2024
gretel dataset sql

Gretel: крупнейший открытый Text-to-SQL датасет

Стартап Gretel, специализирующийся на генерации высококачественных синтетических данных, объявил о создании крупнейшего открытого text-to-SQL датасета, нацеленного на ускорение развития no-code инструментов аналитики. Датасет содержит более 100 000 корректных синтетических образцов…

Диффузионную модель обучили прогнозировать химические реакции

27 декабря 2023
mit duffusion model

Диффузионную модель обучили прогнозировать химические реакции

Ученые MIT разработали модель, прогнозирующую вероятность достижения молекулой переходного состояния – состояния, определяющего вероятность протекания химической реакции. Модель будет использоваться в исследованиях реакций и катализаторов для разработки новых видов топлива…

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

29 сентября 2023
TinyML & Efficient DL Computing

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

В последние годы большие языковые и диффузные модели продемонстрировали впечатляющие результаты, но их требовательность к вычислительным ресурсам и потребление памяти ставит перед исследователями и разработчиками серьезные вызовы. Курс TinyML &…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

22 августа 2023
GPT 3.5 turbo finetuning

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

GPT-3.5 Turbo от OpenAI получил обновление, позволяющее разработчикам дообучать модель для использования в своих приложениях, что позволит разработчикам возможность максимально раскрыть потенциал GPT-3.5. Теперь разработчики могут делать тонкую настройку (finetuning)…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

31 мая 2023
LIMA LLAMA

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

Языковые модели обычно обучаются в два этапах: предварительное обучение без учителя и настройка под конкретные задачи и предпочтения пользователей. Новый метод LIMA (Less Is More for Alignment) основан на гипотезе,…

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

27 мая 2023
DoReMi ускорение обучения моделей

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

Предположим, что у вас есть корпус, подобный The Pile, состоящий из 22 доменов: веб-страницы, Википедия, новости, Github, книги. Исследователи Google и Stanford University предложили алгоритм DoReMi для оптимизации пропорций выборок…

RedPajama: open-source датасет для обучения больших языковых моделей

20 апреля 2023

RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей. Наиболее эффективные на…

Фоторедакторы на основе нейросетей удерживали топ-3 американского Appstore 10 дней подряд

16 декабря 2022
Lensa-AI avatars

Фоторедакторы на основе нейросетей удерживали топ-3 американского Appstore 10 дней подряд

Популярность Lensa оказала заметное влияние на топ-чарты App Store. Возросший спрос на приложение для редактирования фото при помощи нейросетей вывел аналогичные AI-приложения на верхние строчки чарта американского App Store: в…

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

21 ноября 2022
LLM Carbon footprint

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

У больших языковых моделей (LLM) есть «грязный секрет»: до сих пор остается загадкой, насколько велик углеродный след этих моделей. AI-стартап Hugging Face разработал способ оценки выбросов, производимых в течение всего…

Cerebras представила суперкомпьютер Andromeda: 2,6 триллиона 7-нм транзисторов, 850 000 ядер, мощность 15 кВт

16 ноября 2022
andromeda cerebras

Cerebras представила суперкомпьютер Andromeda: 2,6 триллиона 7-нм транзисторов, 850 000 ядер, мощность 15 кВт

Компания Cerebras, производящая самый крупный в мире чип Wafer Scale Engine 2 (WSE-2), представила свой суперкомпьютер Andromeda. Andromeda объединяет 16 чипов WSE-2 размером около 20 сантиметров в один кластер с…

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

12 октября 2022
стив джобс и джо роган podcast

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

На сервисе podcast.ai вышло 20-минутное интервью со сгенерированными голосами Стива Джобса и Джо Рогана. Интервью было создано с использованием GPT-3 и генератора речи на основе текста, а воссозданный голос Джобса…

Google представил нейросеть для детекции туберкулеза на радиограммах

8 сентября 2022
x ray google ai model TB

Google представил нейросеть для детекции туберкулеза на радиограммах

Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в…

LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022
LAION-5B

LAION-5B: крупнейший датасет пар изображение-текст

Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть…

GraphWorld: бенчмарк для графовых нейросетей

9 мая 2022

GraphWorld: бенчмарк для графовых нейросетей

Google AI представила бенчмарк для графовых нейросетей GraphWorld. Бенчмарк использует несколько миллионов синтетических датасетов, воспроизводящих широкий класс графов, и генерирует обобщенную оценку нейросети на основе ее тестирования на всех датасетах.…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе датасета…