MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

30 сентября 2024
Structure AI document extraction ai

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

MinerU — open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU автоматизирует извлечение текста, формул, таблиц и изображений из документов, таких как…

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

26 сентября 2024

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…

EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024
ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

13 сентября 2024
openai o1

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

9 сентября 2024
salesforce AI models open sourced xlam

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

Salesforce представил семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые в основном генерируют текст, xLAM выполняет задачи вызова…

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

2 сентября 2024
mini-omni model architecture

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

27 августа 2024
search types

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

19 августа 2024
agentwrite

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…

VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения

10 августа 2024
VFUSION3d pipeline

VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения

VFusion3D — метод генерации 3D-модели из одного изображения, который использует модели диффузии видео, чтобы избежать нехватки данных для обучения. Благодаря дообучению предобученной модели видео-диффузии, VFusion3D генерирует масштабные синтетические наборы данных…

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

30 июля 2024
CRAM

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

Исследователи из Университета Миннесоты Твин-Ситис представили архитектуру аппаратного обеспечения Computational Random-Access Memory (CRAM), которая призвана трансформировать вычисления в области ИИ, резко сократив энергопотребление. CRAM способен сократить использование энергии ИИ в…

Mistral Large 2: новый лидер в генерации кода среди open source моделей

25 июля 2024
Performance accuracy on code generation benchmarks (all models were benchmarked through the same evaluation pipeline)

Mistral Large 2: новый лидер в генерации кода среди open source моделей

Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

24 июля 2024
llama 3.1 human evaluation

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

27 июня 2024
unique 3d

Unique3D генерирует 3D сетку из одного изображения за 30 секунд

Unique3D — это state-of-the модель для генерации 3D сеток по одному изображению. Код и веса Unique3D доступны в открытом доступе. Этот подход создает детализированные и согласованные 3D модели менее чем…

Модель обучили понимать язык с помощью видеозаписей

23 июня 2024
DenseAV Algorithm

Модель обучили понимать язык с помощью видеозаписей

Разработанный в MIT алгоритм DenseAV обучается понимать значение слов и предложений, просматривая видео с разговорами людей. DenseAV превзошел другие алгоритмы в задачах идентификации объектов по их названию. Исследователи решили задачу…

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

21 июня 2024
claude 3.5 sonnet by anthropic

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на…

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

7 июня 2024
qwen2-72b comparison

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

Переход от Qwen1.5 к Qwen2 наконец состоялся, что стало прорывом в области языковых моделей. Новый state-of-the-art среди открытых моделей, Qwen 2, превосходит Llama 3 на большинстве бенчмарков.  Зоопарк моделей Qwen2…

Google Veo: модель генерации и редактирования видео

19 мая 2024
google veo

Google Veo: модель генерации и редактирования видео

Google DeepMind представила генеративную модель Veo, создающую видео длительностью более 60 секунд в разрешении Full HD. Помимо текстовых запросов, модель может принимать на вход изображения и видеоролики. Ключевой особенностью VEO…

Microsoft VASA-1: платформа для анимирования статичных изображений

21 апреля 2024
microsoft vasa-1

Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024
apple mgie

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

21 января 2024
AlphaGeometry

В Deepmind обучили модель AlphaGeometry решать олимпиадные геометрические задачи

Deepmind представила AlphaGeometry – модель, решающую геометрические задачи на уровне победителей Международной математической олимпиады. AlphaGeometry решила 25 из 30 задач олимпиады, в то время как в среднем победители олимпиады решают…

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

15 января 2024

Microsoft DragNUWA: генерация видео с помощью траекторий объектов

Microsoft опубликовала веса DragNUWA – кросс-доменной модели генерации видео, обеспечивающей более прецизионный контроль над получаемым результатом по сравнению с аналогичными моделями. Контроль достигается за счет одновременного использования в качестве входных…