Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI
2 декабря 2024
Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI
DeepLearning.AI представил образовательный курс Building an AI-Powered Game. Программа курса фокусируется на практическом применении языковых моделей в разработке игр и предназначена для разработчиков разного уровня подготовки. Длительность курса — 1…
X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей
27 ноября 2024
X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей
Исследователи NVIDIA представили X-MeshGraphNet, новое расширение для MeshGraphNet, которое значительно упрощает создание физических моделей и решает проблемы масштабируемости. Этот фреймворк позволяет создавать сложные физические модели, устраняя зависимость от предварительно сгенерированных…
FinRobot: открытый мультиагентный фреймворк для анализа рынка акций
16 ноября 2024
FinRobot: открытый мультиагентный фреймворк для анализа рынка акций
Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, специально разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель…
SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B
6 ноября 2024
SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B
Компания Hugging Face представила SmolLM2 — новое семейство компактных языковых моделей, которое преводсходит существующие state-of-the-art модели. Так версия с 1.7B параметров опережает Llama-1B и Qwen2.5-1.5B на нескольких ключевых бенчмарках: 68.7%…
SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ
31 октября 2024
SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ
Компания DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста, расширив тем самым свою экосистему идентификации ИИ-контента. Решение уже доступно в библиотеке Hugging Face Transformers v4.46.0+.…
Mochi 1: открытая модель генерации видео от Genmo
23 октября 2024
Mochi 1: открытая модель генерации видео от Genmo
Mochi 1 — открытая модель генерации видео с архитектурой Asymmetric Diffusion Transformer (AsymmDiT) от Genmo AI. Mochi 1 содержит 10 миллиардов параметров, сокращая имеющийся разрыв в качестве между закрытыми и открытыми…
В Hailuo AI появилась возможность генерировать видео на основе изображения
9 октября 2024
В Hailuo AI появилась возможность генерировать видео на основе изображения
Платформа для генерации видео Hailuo AI запустила новую функцию Image-to-Video, позволяющую преобразовывать статичные изображения в динамичные видеоролики. После своего релиза в сентябре 2024 года Hailuo AI, созданная китайским стартапом MiniMax,…
MinerU — open-source модель для извлечения данных из документов с точностью 93,5%
30 сентября 2024
MinerU — open-source модель для извлечения данных из документов с точностью 93,5%
MinerU — open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU автоматизирует извлечение текста, формул, таблиц и изображений из документов, таких как…
Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах
26 сентября 2024
Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах
Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…
EzAudio: гиперреалистичная открытая Text-to-Audio модель
19 сентября 2024
EzAudio: гиперреалистичная открытая Text-to-Audio модель
EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…
DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»
15 сентября 2024
DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»
DeeplearningAI выпустил бесплатный видеокурс «Multimodal RAG: Chat with Video«. На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Основной…
OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач
13 сентября 2024
OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач
OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…
xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж
9 сентября 2024
xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж
Salesforce представил семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые в основном генерируют текст, xLAM выполняет задачи вызова…
Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки
2 сентября 2024
Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки
Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…
Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз
27 августа 2024
Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз
Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…
Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью
22 августа 2024
Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью
Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…
LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов
19 августа 2024
LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов
LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…
VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения
10 августа 2024
VFusion3D создает 3D-меш из одного изображения, используя модели диффузии видео для обучения
VFusion3D — метод генерации 3D-модели из одного изображения, который использует модели диффузии видео, чтобы избежать нехватки данных для обучения. Благодаря дообучению предобученной модели видео-диффузии, VFusion3D генерирует масштабные синтетические наборы данных…
CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз
30 июля 2024
CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз
Исследователи из Университета Миннесоты Твин-Ситис представили архитектуру аппаратного обеспечения Computational Random-Access Memory (CRAM), которая призвана трансформировать вычисления в области ИИ, резко сократив энергопотребление. CRAM способен сократить использование энергии ИИ в…
Mistral Large 2: новый лидер в генерации кода среди open source моделей
25 июля 2024
Mistral Large 2: новый лидер в генерации кода среди open source моделей
Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…
Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках
24 июля 2024
Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках
Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…