Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

2 декабря 2024
deeplearning ai game development course free

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

DeepLearning.AI представил образовательный курс Building an AI-Powered Game. Программа курса фокусируется на практическом применении языковых моделей в разработке игр и предназначена для разработчиков разного уровня подготовки. Длительность курса — 1…

X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей

27 ноября 2024
Illustration of the partitioning scheme with Halo on a Koenigsegg car.

X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей

Исследователи NVIDIA представили X-MeshGraphNet, новое расширение для MeshGraphNet, которое значительно упрощает создание физических моделей и решает проблемы масштабируемости. Этот фреймворк позволяет создавать сложные физические модели, устраняя зависимость от предварительно сгенерированных…

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

16 ноября 2024
finrobot model

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, специально разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель…

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

6 ноября 2024
SmolLM v2

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

Компания Hugging Face представила SmolLM2 — новое семейство компактных языковых моделей, которое преводсходит существующие state-of-the-art модели. Так версия с 1.7B параметров опережает Llama-1B и Qwen2.5-1.5B на нескольких ключевых бенчмарках: 68.7%…

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

31 октября 2024
synthID deepmind text generator watermark

SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

Компания DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста, расширив тем самым свою экосистему идентификации ИИ-контента. Решение уже доступно в библиотеке Hugging Face Transformers v4.46.0+.…

Mochi 1: открытая модель генерации видео от Genmo

23 октября 2024

Mochi 1: открытая модель генерации видео от Genmo

Mochi 1 — открытая модель генерации видео с архитектурой Asymmetric Diffusion Transformer (AsymmDiT) от Genmo AI. Mochi 1 содержит 10 миллиардов параметров, сокращая имеющийся разрыв в качестве между закрытыми и открытыми…

В Hailuo AI появилась возможность генерировать видео на основе изображения

9 октября 2024
hailuo image to video text to video

В Hailuo AI появилась возможность генерировать видео на основе изображения

Платформа для генерации видео Hailuo AI запустила новую функцию Image-to-Video, позволяющую преобразовывать статичные изображения в динамичные видеоролики. После своего релиза в сентябре 2024 года Hailuo AI, созданная китайским стартапом MiniMax,…

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

30 сентября 2024
Structure AI document extraction ai

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

MinerU — open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU автоматизирует извлечение текста, формул, таблиц и изображений из документов, таких как…

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

26 сентября 2024

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…

EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024
ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»

15 сентября 2024
Multimodal RAG

DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»

DeeplearningAI выпустил бесплатный видеокурс «Multimodal RAG: Chat with Video«. На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Основной…

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

13 сентября 2024
openai o1

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

9 сентября 2024
salesforce AI models open sourced xlam

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

Salesforce представил семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые в основном генерируют текст, xLAM выполняет задачи вызова…

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

2 сентября 2024
mini-omni model architecture

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

27 августа 2024
search types

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

22 августа 2024

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

19 августа 2024
agentwrite

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…

VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения

10 августа 2024
VFUSION3d pipeline

VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения

VFusion3D — метод генерации 3D-модели из одного изображения, который использует модели диффузии видео, чтобы избежать нехватки данных для обучения. Благодаря дообучению предобученной модели видео-диффузии, VFusion3D генерирует масштабные синтетические наборы данных…

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

30 июля 2024
CRAM

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

Исследователи из Университета Миннесоты Твин-Ситис представили архитектуру аппаратного обеспечения Computational Random-Access Memory (CRAM), которая призвана трансформировать вычисления в области ИИ, резко сократив энергопотребление. CRAM способен сократить использование энергии ИИ в…

Mistral Large 2: новый лидер в генерации кода среди open source моделей

25 июля 2024
Performance accuracy on code generation benchmarks (all models were benchmarked through the same evaluation pipeline)

Mistral Large 2: новый лидер в генерации кода среди open source моделей

Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

24 июля 2024
llama 3.1 human evaluation

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…