ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

18 декабря 2024
Enhancing Text-to-Image Generation

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

Исследователи Alibaba Group представили фреймворк ArtAug для улучшения качества генерации изображений из текста без дополнительных вычислительных затрат на этапе инференса, используя взаимодействие между генеративными и понимающими (understanding) моделями. Архитектура ArtAug…

Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

10 декабря 2024
SORA AI video generation model goes public

Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

OpenAI объявила о публичном релизе Sora Turbo, значительно улучшенной версии своей гиперреалистичной text-to-video, image-to-video и video-to-video модели. Презентация прошла на конференции «12 дней OpenAI», спустя почти 10 месяцев после первой…

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

7 декабря 2024
Vinteo AI - нейросеть, которая создает реалистичные визуализации товаров за пару минут

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

Vinteo AI — SAAS на основе ИИ специализирующуюся на разработке решений в области искусственного интеллекта для визуальной презентации товаров. Нейросеть обеспечивает оперативное и экономически рациональное создание фотореалистичных изображений товаров в…

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

2 декабря 2024
deeplearning ai game development course free

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

DeepLearning.AI представил образовательный курс Building an AI-Powered Game. Программа курса фокусируется на практическом применении языковых моделей в разработке игр и предназначена для разработчиков разного уровня подготовки. Длительность курса — 1…

X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей

27 ноября 2024
Illustration of the partitioning scheme with Halo on a Koenigsegg car.

X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей

Исследователи NVIDIA представили X-MeshGraphNet, новое расширение для MeshGraphNet, которое значительно упрощает создание физических моделей и решает проблемы масштабируемости. Этот фреймворк позволяет создавать сложные физические модели, устраняя зависимость от предварительно сгенерированных…

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

16 ноября 2024
finrobot model

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, специально разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель…

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

6 ноября 2024
SmolLM v2

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

Компания Hugging Face представила SmolLM2 — новое семейство компактных языковых моделей, которое преводсходит существующие state-of-the-art модели. Так версия с 1.7B параметров опережает Llama-1B и Qwen2.5-1.5B на нескольких ключевых бенчмарках: 68.7%…

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

31 октября 2024
synthID deepmind text generator watermark

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

Компания DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста, расширив тем самым свою экосистему идентификации ИИ-контента. Решение уже доступно в библиотеке Hugging Face Transformers v4.46.0+.…

Mochi 1: открытая модель генерации видео от Genmo

23 октября 2024

Mochi 1: открытая модель генерации видео от Genmo

Mochi 1 — открытая модель генерации видео с архитектурой Asymmetric Diffusion Transformer (AsymmDiT) от Genmo AI. Mochi 1 содержит 10 миллиардов параметров, сокращая имеющийся разрыв в качестве между закрытыми и открытыми…

В Hailuo AI появилась возможность генерировать видео на основе изображения

9 октября 2024
hailuo image to video text to video

В Hailuo AI появилась возможность генерировать видео на основе изображения

Платформа для генерации видео Hailuo AI запустила новую функцию Image-to-Video, позволяющую преобразовывать статичные изображения в динамичные видеоролики. После своего релиза в сентябре 2024 года Hailuo AI, созданная китайским стартапом MiniMax,…

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

30 сентября 2024
Structure AI document extraction ai

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

MinerU — open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU автоматизирует извлечение текста, формул, таблиц и изображений из документов, таких как…

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

26 сентября 2024

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…

EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024
ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»

15 сентября 2024
Multimodal RAG

DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»

DeeplearningAI выпустил бесплатный видеокурс «Multimodal RAG: Chat with Video«. На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Основной…

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

13 сентября 2024
openai o1

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

9 сентября 2024
salesforce AI models open sourced xlam

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

Salesforce представил семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые в основном генерируют текст, xLAM выполняет задачи вызова…

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

2 сентября 2024
mini-omni model architecture

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

27 августа 2024
search types

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

22 августа 2024

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

19 августа 2024
agentwrite

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…

VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения

10 августа 2024
VFUSION3d pipeline

VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения

VFusion3D — метод генерации 3D-модели из одного изображения, который использует модели диффузии видео, чтобы избежать нехватки данных для обучения. Благодаря дообучению предобученной модели видео-диффузии, VFusion3D генерирует масштабные синтетические наборы данных…