EzAudio: гиперреалистичная открытая Text-to-Audio модель
19 сентября 2024
EzAudio: гиперреалистичная открытая Text-to-Audio модель
EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…
DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»
15 сентября 2024
DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»
DeeplearningAI выпустил бесплатный видеокурс «Multimodal RAG: Chat with Video«. На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Основной…
OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач
13 сентября 2024
OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач
OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…
xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж
9 сентября 2024
xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж
Salesforce представил семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые в основном генерируют текст, xLAM выполняет задачи вызова…
Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки
2 сентября 2024
Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки
Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…
Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз
27 августа 2024
Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз
Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…
Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью
22 августа 2024
Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью
Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…
LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов
19 августа 2024
LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов
LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…
VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения
10 августа 2024
VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения
VFusion3D — метод генерации 3D-модели из одного изображения, который использует модели диффузии видео, чтобы избежать нехватки данных для обучения. Благодаря дообучению предобученной модели видео-диффузии, VFusion3D генерирует масштабные синтетические наборы данных…
CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз
30 июля 2024
CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз
Исследователи из Университета Миннесоты Твин-Ситис представили архитектуру аппаратного обеспечения Computational Random-Access Memory (CRAM), которая призвана трансформировать вычисления в области ИИ, резко сократив энергопотребление. CRAM способен сократить использование энергии ИИ в…
Mistral Large 2: новый лидер в генерации кода среди open source моделей
25 июля 2024
Mistral Large 2: новый лидер в генерации кода среди open source моделей
Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…
Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках
24 июля 2024
Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках
Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…
MindsDB: ИИ для работы в базами данных
12 июля 2024
MindsDB: ИИ для работы в базами данных
MindsDB трансформирует интеграцию ИИ с базами данных и позволяет использовать возможности машинного обучения без изменения существующей инфраструктуры данных. Рассказываем, как это работает, преимущества подхода и как начать работу. Ключевые особенности…
Как ИИ помог студии King разработать 13755 уровней для игры Candy Crush Saga
4 июля 2024
Как ИИ помог студии King разработать 13755 уровней для игры Candy Crush Saga
Компания King, разработчик известной мобильной игры Candy Crush Saga, активно внедряет искусственный интеллект в процесс разработки и оптимизации игры. В недавнем интервью Сахар Асади (Sahar Asadi) из AI Labs Activision…
Unique3D генерирует 3D сетку из одного изображения за 30 секунд
27 июня 2024
Unique3D генерирует 3D сетку из одного изображения за 30 секунд
Unique3D — это state-of-the модель для генерации 3D сеток по одному изображению. Код и веса Unique3D доступны в открытом доступе. Этот подход создает детализированные и согласованные 3D модели менее чем…
Модель обучили понимать язык с помощью видеозаписей
23 июня 2024
Модель обучили понимать язык с помощью видеозаписей
Разработанный в MIT алгоритм DenseAV обучается понимать значение слов и предложений, просматривая видео с разговорами людей. DenseAV превзошел другие алгоритмы в задачах идентификации объектов по их названию. Исследователи решили задачу…
Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках
21 июня 2024
Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках
Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на…
Google PH-LLM: языковая модель для мониторинга здоровья
16 июня 2024
Google PH-LLM: языковая модель для мониторинга здоровья
Google разработала языковую модель PH-LLM для анализа медицинских данных, собранных с носимых устройств – умных часов и пульсометров. В ходе экспериментов модель отвечала на вопросы о здоровье и прогнозировала состояние…
Dream Machine от Luma AI — нейросеть для создания коротких видео из текста или изображения
14 июня 2024
Dream Machine от Luma AI — нейросеть для создания коротких видео из текста или изображения
Dream Machine от Luma AI — это генеративная нейросеть, предназначенная для создания коротких видео на основе текстовых промтов и изображений. Dream Machine построена на масштабируемой трансформерной архитектуре, которая обучена на…
Zyda: open source датасет объемом 1.3T для обучения языковых моделей
12 июня 2024
Zyda: open source датасет объемом 1.3T для обучения языковых моделей
Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…
Apple представила «Apple Intelligence» и партнёрство с OpenAI на WWDC
11 июня 2024
Apple представила «Apple Intelligence» и партнёрство с OpenAI на WWDC
На Всемирной конференции разработчиков (WWDC) компания Apple представила «Apple Intelligence» и объявила о стратегическом партнёрстве с OpenAI. Эти шаги демонстрируют стремление компании интегрировать искусственный интеллект в свои устройства, такие как iPhone, iPad…