Диффузионную модель обучили прогнозировать химические реакции

27 декабря 2023
mit duffusion model

Диффузионную модель обучили прогнозировать химические реакции

Ученые MIT разработали модель, прогнозирующую вероятность достижения молекулой переходного состояния – состояния, определяющего вероятность протекания химической реакции. Модель будет использоваться в исследованиях реакций и катализаторов для разработки новых видов топлива…

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

29 сентября 2023
TinyML & Efficient DL Computing

MIT публикует бесплатный курс лекций TinyML & Efficient DL Computing на Youtube

В последние годы большие языковые и диффузные модели продемонстрировали впечатляющие результаты, но их требовательность к вычислительным ресурсам и потребление памяти ставит перед исследователями и разработчиками серьезные вызовы. Курс TinyML &…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023
Würstchen approach

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

22 августа 2023
GPT 3.5 turbo finetuning

OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач

GPT-3.5 Turbo от OpenAI получил обновление, позволяющее разработчикам дообучать модель для использования в своих приложениях, что позволит разработчикам возможность максимально раскрыть потенциал GPT-3.5. Теперь разработчики могут делать тонкую настройку (finetuning)…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

31 мая 2023
LIMA LLAMA

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

Языковые модели обычно обучаются в два этапах: предварительное обучение без учителя и настройка под конкретные задачи и предпочтения пользователей. Новый метод LIMA (Less Is More for Alignment) основан на гипотезе,…

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

27 мая 2023
DoReMi ускорение обучения моделей

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

Предположим, что у вас есть корпус, подобный The Pile, состоящий из 22 доменов: веб-страницы, Википедия, новости, Github, книги. Исследователи Google и Stanford University предложили алгоритм DoReMi для оптимизации пропорций выборок…

RedPajama: open-source датасет для обучения больших языковых моделей

20 апреля 2023

RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей. Наиболее эффективные на…

Фоторедакторы на основе нейросетей удерживали топ-3 американского Appstore 10 дней подряд

16 декабря 2022
Lensa-AI avatars

Фоторедакторы на основе нейросетей удерживали топ-3 американского Appstore 10 дней подряд

Популярность Lensa оказала заметное влияние на топ-чарты App Store. Возросший спрос на приложение для редактирования фото при помощи нейросетей вывел аналогичные AI-приложения на верхние строчки чарта американского App Store: в…

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

21 ноября 2022
LLM Carbon footprint

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

У больших языковых моделей (LLM) есть «грязный секрет»: до сих пор остается загадкой, насколько велик углеродный след этих моделей. AI-стартап Hugging Face разработал способ оценки выбросов, производимых в течение всего…

Cerebras представила суперкомпьютер Andromeda: 2,6 триллиона 7-нм транзисторов, 850 000 ядер, мощность 15 кВт

16 ноября 2022
andromeda cerebras

Cerebras представила суперкомпьютер Andromeda: 2,6 триллиона 7-нм транзисторов, 850 000 ядер, мощность 15 кВт

Компания Cerebras, производящая самый крупный в мире чип Wafer Scale Engine 2 (WSE-2), представила свой суперкомпьютер Andromeda. Andromeda объединяет 16 чипов WSE-2 размером около 20 сантиметров в один кластер с…

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

12 октября 2022
стив джобс и джо роган podcast

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

На сервисе podcast.ai вышло 20-минутное интервью со сгенерированными голосами Стива Джобса и Джо Рогана. Интервью было создано с использованием GPT-3 и генератора речи на основе текста, а воссозданный голос Джобса…

Google представил нейросеть для детекции туберкулеза на радиограммах

8 сентября 2022
x ray google ai model TB

Google представил нейросеть для детекции туберкулеза на радиограммах

Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в…

LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022
LAION-5B

LAION-5B: крупнейший датасет пар изображение-текст

Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть…

GraphWorld: бенчмарк для графовых нейросетей

9 мая 2022

GraphWorld: бенчмарк для графовых нейросетей

Google AI представила бенчмарк для графовых нейросетей GraphWorld. Бенчмарк использует несколько миллионов синтетических датасетов, воспроизводящих широкий класс графов, и генерирует обобщенную оценку нейросети на основе ее тестирования на всех датасетах.…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе датасета…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

5 февраля 2022

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

Сбер опубликовал в открытом доступе PyTorch-Lifestream — библиотеку алгоритмов построения векторных представлений событийных данных. Библиотека позволяет обрабатывать терабайтные объемы таких данных, как банковские транзакции, игровые события и истории покупок. Библиотека…

В Google AI обучили робота выполнять новые для него задания

5 февраля 2022

В Google AI обучили робота выполнять новые для него задания

В исследовании Google AI продемонстрирована возможность обучения роботов выполнению задач, отсутствовавших в обучающем датасете.  Метод позволяет ускорить и упростить процесс обучения роботов. Роботы в реальном мире неизбежно столкнутся с новыми…

В OpenAI обучили модель доказывать теоремы

4 февраля 2022

В OpenAI обучили модель доказывать теоремы

OpenAI представила нейросеть, доказывающую теоремы. Модель достигла точности 41% на датасете школьных олимпиадных задач miniF2F. Для поиска доказательств используется языковая модель, обученная по принципу обучения школьников: каждый раз, когда нейросеть…