Gretel: крупнейший открытый text-to-SQL датасет

7 апреля 2024

Gretel: крупнейший открытый text-to-SQL датасет

Стартап Gretel, специализирующийся на генерации высококачественных синтетических данных, объявил о создании крупнейшего открытого text-to-SQL датасета, нацеленного на ускорение развития no-code инструментов аналитики. Датасет содержит более 100 000 корректных синтетических образцов…

Диффузионную модель обучили прогнозировать химические реакции

27 декабря 2023
mit duffusion model

Диффузионную модель обучили прогнозировать химические реакции

Ученые MIT разработали модель, прогнозирующую вероятность достижения молекулой переходного состояния – состояния, определяющего вероятность протекания химической реакции. Модель будет использоваться в исследованиях реакций и катализаторов для разработки новых видов топлива…

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

29 сентября 2023
TinyML & Efficient DL Computing

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

В последние годы большие языковые и диффузные модели продемонстрировали впечатляющие результаты, но их требовательность к вычислительным ресурсам и потребление памяти ставит перед исследователями и разработчиками серьезные вызовы. Курс TinyML &…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

22 августа 2023
GPT 3.5 turbo finetuning

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

GPT-3.5 Turbo от OpenAI получил обновление, позволяющее разработчикам дообучать модель для использования в своих приложениях, что позволит разработчикам возможность максимально раскрыть потенциал GPT-3.5. Теперь разработчики могут делать тонкую настройку (finetuning)…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

31 мая 2023
LIMA LLAMA

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

Языковые модели обычно обучаются в два этапах: предварительное обучение без учителя и настройка под конкретные задачи и предпочтения пользователей. Новый метод LIMA (Less Is More for Alignment) основан на гипотезе,…

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

27 мая 2023
DoReMi ускорение обучения моделей

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

Предположим, что у вас есть корпус, подобный The Pile, состоящий из 22 доменов: веб-страницы, Википедия, новости, Github, книги. Исследователи Google и Stanford University предложили алгоритм DoReMi для оптимизации пропорций выборок…

RedPajama: open-source датасет для обучения больших языковых моделей

20 апреля 2023

RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей. Наиболее эффективные на…

Фоторедакторы на основе нейросетей удерживали топ-3 американского Appstore 10 дней подряд

16 декабря 2022
Lensa-AI avatars

Фоторедакторы на основе нейросетей удерживали топ-3 американского Appstore 10 дней подряд

Популярность Lensa оказала заметное влияние на топ-чарты App Store. Возросший спрос на приложение для редактирования фото при помощи нейросетей вывел аналогичные AI-приложения на верхние строчки чарта американского App Store: в…

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

21 ноября 2022
LLM Carbon footprint

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

У больших языковых моделей (LLM) есть «грязный секрет»: до сих пор остается загадкой, насколько велик углеродный след этих моделей. AI-стартап Hugging Face разработал способ оценки выбросов, производимых в течение всего…

Cerebras представила суперкомпьютер Andromeda: 2,6 триллиона 7-нм транзисторов, 850 000 ядер, мощность 15 кВт

16 ноября 2022
andromeda cerebras

Cerebras представила суперкомпьютер Andromeda: 2,6 триллиона 7-нм транзисторов, 850 000 ядер, мощность 15 кВт

Компания Cerebras, производящая самый крупный в мире чип Wafer Scale Engine 2 (WSE-2), представила свой суперкомпьютер Andromeda. Andromeda объединяет 16 чипов WSE-2 размером около 20 сантиметров в один кластер с…

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

12 октября 2022
стив джобс и джо роган podcast

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

На сервисе podcast.ai вышло 20-минутное интервью со сгенерированными голосами Стива Джобса и Джо Рогана. Интервью было создано с использованием GPT-3 и генератора речи на основе текста, а воссозданный голос Джобса…

Google представил нейросеть для детекции туберкулеза на радиограммах

8 сентября 2022
x ray google ai model TB

Google представил нейросеть для детекции туберкулеза на радиограммах

Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в…

LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022
LAION-5B

LAION-5B: крупнейший датасет пар изображение-текст

Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть…

GraphWorld: бенчмарк для графовых нейросетей

9 мая 2022

GraphWorld: бенчмарк для графовых нейросетей

Google AI представила бенчмарк для графовых нейросетей GraphWorld. Бенчмарк использует несколько миллионов синтетических датасетов, воспроизводящих широкий класс графов, и генерирует обобщенную оценку нейросети на основе ее тестирования на всех датасетах.…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе датасета…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

5 февраля 2022

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

Сбер опубликовал в открытом доступе PyTorch-Lifestream — библиотеку алгоритмов построения векторных представлений событийных данных. Библиотека позволяет обрабатывать терабайтные объемы таких данных, как банковские транзакции, игровые события и истории покупок. Библиотека…

В Google AI обучили робота выполнять новые для него задания

5 февраля 2022

В Google AI обучили робота выполнять новые для него задания

В исследовании Google AI продемонстрирована возможность обучения роботов выполнению задач, отсутствовавших в обучающем датасете.  Метод позволяет ускорить и упростить процесс обучения роботов. Роботы в реальном мире неизбежно столкнутся с новыми…