Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

22 мая 2025
Диаграмма процесса обучения Visual-ARFT

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследовательская группа из Шанхайского университета Цзяо Тонг и Шанхайской лаборатории искусственного интеллекта представила Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) — новый подход к обучению крупных мультимодальных моделей агентным возможностям. Методика демонстрирует…

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

27 февраля 2025
r1 demo

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

26 сентября 2024

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…