MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

В последние годы был достигнут значительный прогресс в разработке как специализированных, так и универсальных моделей сегментации 2D медицинских изображений, однако область 3D и видеосегментации остается недостаточно исследованной. Группа исследователей из университетов Канады и Гарварда, США, представила MedSAM2 — модель для сегментации медицинских изображений и видео в 3D, построенная на базе модели SAM2.1-Tiny. MedSAM2 — полностью открытая модель: исследователи выложили код, веса модели и аннотированные датасеты на Github. Исследователям удалось сократить время разметки изображений на 85% благодаря использования метода Human-in-the-loop.

Архитектура модели

MedSAM2 заметно лучше конкурентов благодаря нескольким ключевым инновациям:

Оптимизация архитектуры: Построена на основе SAM2 с модификациями для специфики медицинской области, особенно для обработки 3D данных. Модель использует иерархический трансформер (Hiera) с модулем внимания памяти, который обрабатывает 3D-сканы или кадры из видео.
Комплексный набор данных для обучения: дообучена на объемном наборе данных, содержащем более 455,000 пар 3D изображение-маска для КТ (363,161), ПЭТ (14,818) и МРТ (77,154), плюс 76,000 видеокадров ультразвука и эндоскопии.
Обработка с памятью: использует потоковый «банк» памяти, который обусловливает признаки текущего кадра на основе предсказаний предыдущих кадров, обеспечивая эффективное распространение масок сегментации по 3D объемам или последовательным видеокадрам.
Подход с transfer-learning: модель достигает высокой производительности благодаря дообучению легковесного варианта SAM2.1-Tiny, с дифференцированными скоростями обучения — ниже для энкодера изображений, чтобы сохранить предварительно обученные возможности извлечения признаков, и выше для других компонентов, чтобы адаптироваться к характеристикам медицинской области.

Результаты и сравнения

MedSAM2 демонстрирует значительные улучшения по сравнению с существующими моделями сегментации в комплексных оценках. Ниже приведены сравнительные показатели производительности MedSAM2 в сравнении с вариантами SAM2.1 (Tiny, Small, Base, Large) и EfficientMedSAM-Top1:

Сегментация 3D изображений (коэффициент сходства Дайса)

Задача	MedSAM2	EfficientMedSAM-Top1	Лучший вариант SAM2.1
Органы КТ	88.84% (80.03-94.03%)	83.55% (67.20-91.78%)	~80% (различные модели)
Поражения КТ	86.68% (74.32-91.14%)	77.95% (69.15-84.81%)	~70% (различные модели)
Органы МРТ	87.06% (82.96-90.04%)	74.83%	~84% (SAM2.1-Base)
Поражения МРТ	88.37% (79.91-93.26%)	82.25% (68.30-90.53%)	~72% (различные модели)
Поражения ПЭТ	87.22% (79.07-90.45%)	77.85%	~80% (SAM2.1-Large)

Результаты:

MedSAM2 превосходит EfficientMedSAM-Top1 на 5-13% в зависимости от задачи, SAM2.1 на 7-18%;
Все варианты SAM2.1 показали схожую производительность независимо от размера модели (нет статистически значимых различий, p>0.05);
Разрыв в производительности особенно заметен для поражений, которые традиционно сложнее сегментировать.

Сегментация видео (коэффициент сходства Дайса)

ЛЖ — левый желудочек сердца, ЛП — левое предсердие.

Задача	MedSAM2	SAM2.1-Tiny	SAM2.1-Small	SAM2.1-Base	SAM2.1-Large
УЗИ ЛЖ	96.13% (95.09-97.15%)	~94%	~94%	~94%	~94%
УЗИ эпикард ЛЖ	93.10% (91.07-94.11%)	~88%	~89%	~89%	~90%
УЗИ ЛП	95.79% (94.38-96.96%)	~93%	~93%	~94%	~94%
Полипы эндоскопии (легкие)	92.24% (85.15-96.11%)	92.11% (75.74-96.47%)	93.32% (76.24-96.58%)	93.87% (77.48-96.64%)	93.76% (77.20-96.60%)
Полипы эндоскопии (сложные)	92.22% (83.37-95.88%)	83.43% (60.34-92.53%)	84.93% (63.32-92.87%)	85.64% (64.55-92.98%)	87.47% (67.21-93.51%)

Значимые результаты:

Для УЗИ сердца MedSAM2 показывает улучшение на 2-4% по сравнению с вариантами SAM2.1;
Для сложных случаев полипов MedSAM2 поддерживает стабильную производительность с улучшением на 5-9% по сравнению с моделями SAM2.1;
MedSAM2 демонстрирует значительно меньшую вариабельность (более узкие межквартильные диапазоны) во всех задачах, что указывает на более надежную и стабильную сегментацию

Пайплайн аннотации с человеком в контуре

Возможно, наиболее значительный вклад MedSAM2 – это ее практическое применение в рабочих процессах аннотации данных. Исследователи реализовали пайплайн аннотации с человеком в цикле (human-in-the-loop), который значительно сокращает время ручной аннотации:

Аннотация поражений КТ: Сократилось время аннотации с 525.9 секунд до 74.3 секунд на поражение (на 85.86% быстрее) за три итеративных раунда, что позволило аннотировать 5,000 поражений КТ;
Аннотация поражений печени на МРТ: уменьшилось время аннотации с 520.3 секунд до 65.2 секунд на поражение (на 87.47% быстрее), что ускорило аннотацию 3,984 поражений печени на МРТ;
Аннотация видео эхокардиографии: cократилось время аннотации с 102.3 секунд до 8.4 секунд на кадр (на 91.79% быстрее), что позволило аннотировать 251,550 кадров из 1,800 видео.

Этот итеративный процесс демонстрирует, как производительность модели улучшается с каждым раундом обратной связи от человека, создавая благотворный цикл, который постоянно повышает эффективность аннотации.

Доступность и развертывание с открытым исходным кодом

Ключевым преимуществом MedSAM2 является ее полностью открытый исходный код, предоставляющий исследовательскому и клиническому сообществу полный доступ к:

Полному исходному коду: все детали реализации модели и пайплайны обучения;
Предобученным весам модели: готовые к использованию модели без необходимости дорогостоящего переобучения;
Аннотированным наборам данных: ценные ресурсы для бенчмаркинга и дальнейших исследований;
Плагину для 3D Slicer: расширение с открытым исходным кодом для популярной платформы медицинской визуализации.

Технические ограничения

MedSAM2 имеет ряд ограничений:

Зависимость от boundary box: опора на прямоугольные рамки в качестве основных подсказок ограничивает возможности сегментации сложных анатомических структур, таких как тонкие, разветвленные сосуды.
Фиксированная конструкция памяти: банк памяти на восемь кадров может быть недостаточным для быстрых или больших движений объекта, потенциально вызывая сбои отслеживания.
Вычислительные требования: несмотря на использование легковесного варианта SAM2.1-Tiny, вывод по-прежнему требует вычислений на GPU, ограничивая развертывание в ресурсно-ограниченных средах.

Заключение

MedSAM2 представляет собой значительный вклад в анализ медицинских изображений, преодолевая разрыв между общими фундаментальными моделями и специфическими для медицинской области приложениями. Ее способность обрабатывать как 3D снимки, так и видео, в сочетании с существенным повышением эффективности аннотации, делает ее ценным инструментом как для исследований, так и для клинического применения. Значительно снижая время аннотации, MedSAM2 облегчает создание более крупных, высококачественных наборов данных, которые будут дальше продвигать прогресс в медицинском ИИ.

Нельзя переоценить важность открытого исходного кода этого проекта. Предоставляя свободный доступ к коду, весам модели, аннотированным наборам данных и инструментам развертывания, исследователи устранили значительные барьеры для входа в область продвинутой сегментации медицинских изображений.