LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров
28 мая 2026
LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров
Исследователи из Glint Lab, AIM for Health Lab и MVP Lab опубликовали LLaVA-OneVision-2 (LLaVA-OV-2) — мультимодальную модель нового поколения, которая переосмысливает то, как нейросеть «смотрит» видео. Вместо того чтобы нарезать видео…




















