Shopping Muse: рекомендательная система Mastercard

10 декабря 2023

Shopping Muse: рекомендательная система Mastercard

Mastercard представила Shopping Muse – модуль для интернет-магазинов в формате чат-бота, рекомендующий покупателю товары на основе его истории покупок и поиска, региона и других признаков. Shopping Muse работает на базе…

Microsoft LeMa: обучение языковых моделей на их ошибках

4 ноября 2023
Microsoft LeMa

Microsoft LeMa: обучение языковых моделей на их ошибках

Исследователи Microsoft представили LeMa (Learning from Mistakes) – алгоритм с открытым исходным кодом для улучшения способности больших языковых моделей решать математические задачи. LeMa заставляет модель учиться на своих ошибках, имитируя…

В Shutterstock добавили редактирование изображений на основе DALL-E 2

28 октября 2023

В Shutterstock добавили редактирование изображений на основе DALL-E 2

В хранилище стоковых изображений Shutterstock добавили возможность обработки изображений перед скачиванием c помощью текстовых запросов. Новые функции работают на основе OpenAI DALL-E 2 и позволяют менять угол обзора сцены, заменять…

Microsoft AutoGen: фреймворк для настройки LLM-агентов

8 октября 2023
AutoGen framework

Microsoft AutoGen: фреймворк для настройки LLM-агентов

Microsoft представила AutoGen, open-source библиотеку для создания и настройки LLM-агентов – отдельных сеансов больших языковых моделей, которые могут взаимодействовать друг с другом для совместного решения задач. LLM-агенты – перспективная область…

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

1 октября 2023
Mistral 7B vs Llama 2

«Компактный гигант» Mistral 7B превзошел результаты Llama2 13B и Llama 34B

Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает…

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

24 сентября 2023
FLM 101B evaluating growth strategy

FLM-101B: языковую модель со 101 миллиардом параметров обучили с нуля «всего» за $100 000

Исследователи из Пекинского университета представили FLM-101B — открытую большую языковую модель с 101 миллиардом параметров, обученную с нуля на 300 миллиардах токенов при затратах «всего лишь» $100 000. Обучение таких…

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

11 сентября 2023
persimmon-8b-llm

Persimmon-8B: открытая модель с длиной контекста 16k токенов, работающая на одном GPU

Исследователи из Adept представили open source языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5. Длинный контекст…

Hiber3D: создание метавселенных с помощью естественного языка

10 сентября 2023
Hiber3D creating metaverses with LLM

Hiber3D: создание метавселенных с помощью естественного языка

Компания Hiber, разрабатывающая инструменты для создания метавселенных, объявила об интеграции с Google PaLM. Обновление Hiber3D позволит пользователям создавать и модифицировать 3D-сцены c помощью запросов на естественном языке. С помощью no-code…

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

6 сентября 2023
falcon 180b model intro

Falcon 180B: самая крупная открытая языковая модель превзошла результаты Llama 2 и GPT 3.5

Институт Технологических Инноваций из ОАЭ представил Falcon 180B — крупнейшую открытую языковую модель, потеснившую Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HugginFace. Модель была обучена…

ReLoRA: метод увеличения производительности обучения больших языковых моделей

16 августа 2023
relora method

ReLoRA: метод увеличения производительности обучения больших языковых моделей

ReLoRA — метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование…

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

19 июля 2023
Llama 2 update

Llama 2 и Llama-2-Chat: новое поколение open source языковых моделей

Новое поколение моделей Llama — это три большие языковые модели Llama 2 c 7, 13 и 70 миллиардами параметров, и дообученные для ведения диалогов модели Llama-2-Chat 7B, 34B и 70B.…

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

13 июля 2023
LongLLAMA FOT

LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов

Новый метод Focused Transformer (FOT) позволяет дообучать большие языковые модели для расширения эффективного понимания контекста. Для демонстрации метода исследователи дообучиили open source модели OpenLLaMA 3B и 7B, результирующая модель LONGLLAMA…

Модель Phi-1 от Microsoft всего с 1.3B параметров достигла SotA в генерации кода

30 июня 2023
code generation phi-1 model

Модель Phi-1 от Microsoft всего с 1.3B параметров достигла SotA в генерации кода

Исследователи Microsoft Research представили Phi-1 — языковую модель для генерации кода всего с 1,3 миллиардами параметров, которая смогла достигнуть близкого к state-of-the-art уровня генерации кода с помощью собранного авторами датасета.…

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

26 июня 2023
Inflection-1 model by Insflection

Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

Стартап Inflection официально представил Inflection-1 — большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на которой основан ChatGPT), а обучение проводилось «на тысячах»…

ConPLex: языковая модель для разработки лекарств

11 июня 2023
ConPLex

ConPLex: языковая модель для разработки лекарств

ConPLex – языковая модель, обученная анализировать химические базы данных для поиска потенциальных лекарств-молекул, наилучшим образом взаимодействующих с определенным белком-мишенью. Модель позволяет исследовать более 100 миллионов соединений за сутки и, таким…

Gorilla: open source модель для вызова 1600+ сторонних API

2 июня 2023
gorilla llm

Gorilla: open source модель для вызова 1600+ сторонних API

Gorilla — модель, обученная на основе LLaMA, которая превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в…

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

31 мая 2023
LIMA LLAMA

LIMA: метод предобучения на 1000 примерах позволил достичь точности GPT-4

Языковые модели обычно обучаются в два этапах: предварительное обучение без учителя и настройка под конкретные задачи и предпочтения пользователей. Новый метод LIMA (Less Is More for Alignment) основан на гипотезе,…

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

27 мая 2023
DoReMi ускорение обучения моделей

DoReMi: алгоритм, ускоряющий предобучение языковых моделей

Предположим, что у вас есть корпус, подобный The Pile, состоящий из 22 доменов: веб-страницы, Википедия, новости, Github, книги. Исследователи Google и Stanford University предложили алгоритм DoReMi для оптимизации пропорций выборок…

Open-source модель StarCoder генерирует код на 86 языках программирования

10 мая 2023
starcoder

Open-source модель StarCoder генерирует код на 86 языках программирования

StarCoder — это state-of-the-art метод для исправления и генерации кода с помощью нейронных сетей от сообщества исследователей The BigCode, MIT, университета Пенсильвании и Колумбийского университета. StarCoder отличается от предыдущих моделей,…

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

21 ноября 2022
LLM Carbon footprint

Стартап HuggingFace подсчитал, сколько тонн углекислого газа выделяется при создании LLM моделей

У больших языковых моделей (LLM) есть «грязный секрет»: до сих пор остается загадкой, насколько велик углеродный след этих моделей. AI-стартап Hugging Face разработал способ оценки выбросов, производимых в течение всего…

Как использовать BERT для мультиклассовой классификации текста

14 февраля 2019

Как использовать BERT для мультиклассовой классификации текста

Возможно, наиболее важное событие прошедшего года в NLP — релиз BERT, мультиязычной модели на основе трансформера, которая показала state-of-the-art результаты в нескольких задачах NLP. BERT — двунаправленная модель с transformer-архитектурой, заменившая…