MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

medsam2 human in the loop

В последние годы был достигнут значительный прогресс в разработке как специализированных, так и универсальных моделей сегментации 2D медицинских изображений, однако область 3D и видеосегментации остается недостаточно исследованной. Группа исследователей из университетов Канады и Гарварда, США, представила MedSAM2  — модель для сегментации медицинских изображений и видео в 3D, построенная на базе модели SAM2.1-Tiny. MedSAM2 — полностью открытая модель: исследователи выложили код, веса модели и аннотированные датасеты на Github. Исследователям удалось сократить время разметки изображений на 85% благодаря использования метода Human-in-the-loop.

Архитектура модели

medsam2 architecture

MedSAM2 заметно лучше конкурентов благодаря нескольким ключевым инновациям:

  1. Оптимизация архитектуры: Построена на основе SAM2 с модификациями для специфики медицинской области, особенно для обработки 3D данных. Модель использует иерархический трансформер (Hiera) с модулем внимания памяти, который обрабатывает 3D-сканы или кадры из видео.
  2. Комплексный набор данных для обучения: дообучена на объемном наборе данных, содержащем более 455,000 пар 3D изображение-маска для КТ (363,161), ПЭТ (14,818) и МРТ (77,154), плюс 76,000 видеокадров ультразвука и эндоскопии.
  3. Обработка с памятью: использует потоковый «банк» памяти, который обусловливает признаки текущего кадра на основе предсказаний предыдущих кадров, обеспечивая эффективное распространение масок сегментации по 3D объемам или последовательным видеокадрам.
  4. Подход с transfer-learning: модель достигает высокой производительности благодаря дообучению легковесного варианта SAM2.1-Tiny, с дифференцированными скоростями обучения — ниже для энкодера изображений, чтобы сохранить предварительно обученные возможности извлечения признаков, и выше для других компонентов, чтобы адаптироваться к характеристикам медицинской области.

Результаты и сравнения

MedSAM2 демонстрирует значительные улучшения по сравнению с существующими моделями сегментации в комплексных оценках. Ниже приведены сравнительные показатели производительности MedSAM2 в сравнении с вариантами SAM2.1 (Tiny, Small, Base, Large) и EfficientMedSAM-Top1:

Сегментация 3D изображений (коэффициент сходства Дайса)

Задача MedSAM2 EfficientMedSAM-Top1 Лучший вариант SAM2.1
Органы КТ 88.84% (80.03-94.03%) 83.55% (67.20-91.78%) ~80% (различные модели)
Поражения КТ 86.68% (74.32-91.14%) 77.95% (69.15-84.81%) ~70% (различные модели)
Органы МРТ 87.06% (82.96-90.04%) 74.83% ~84% (SAM2.1-Base)
Поражения МРТ 88.37% (79.91-93.26%) 82.25% (68.30-90.53%) ~72% (различные модели)
Поражения ПЭТ 87.22% (79.07-90.45%) 77.85% ~80% (SAM2.1-Large)

Результаты:

  • MedSAM2 превосходит EfficientMedSAM-Top1 на 5-13% в зависимости от задачи, SAM2.1 на 7-18%;
  • Все варианты SAM2.1 показали схожую производительность независимо от размера модели (нет статистически значимых различий, p>0.05);
  • Разрыв в производительности особенно заметен для поражений, которые традиционно сложнее сегментировать.

Сегментация видео (коэффициент сходства Дайса)

ЛЖ — левый желудочек сердца, ЛП — левое предсердие.

Задача MedSAM2 SAM2.1-Tiny SAM2.1-Small SAM2.1-Base SAM2.1-Large
УЗИ ЛЖ 96.13% (95.09-97.15%) ~94% ~94% ~94% ~94%
УЗИ эпикард ЛЖ 93.10% (91.07-94.11%) ~88% ~89% ~89% ~90%
УЗИ ЛП 95.79% (94.38-96.96%) ~93% ~93% ~94% ~94%
Полипы эндоскопии (легкие) 92.24% (85.15-96.11%) 92.11% (75.74-96.47%) 93.32% (76.24-96.58%) 93.87% (77.48-96.64%) 93.76% (77.20-96.60%)
Полипы эндоскопии (сложные) 92.22% (83.37-95.88%) 83.43% (60.34-92.53%) 84.93% (63.32-92.87%) 85.64% (64.55-92.98%) 87.47% (67.21-93.51%)

Значимые результаты:

  • Для УЗИ сердца MedSAM2 показывает улучшение на 2-4% по сравнению с вариантами SAM2.1;
  • Для сложных случаев полипов MedSAM2 поддерживает стабильную производительность с улучшением на 5-9% по сравнению с моделями SAM2.1;
  • MedSAM2 демонстрирует значительно меньшую вариабельность (более узкие межквартильные диапазоны) во всех задачах, что указывает на более надежную и стабильную сегментацию

Пайплайн аннотации с человеком в контуре

Возможно, наиболее значительный вклад MedSAM2 – это ее практическое применение в рабочих процессах аннотации данных. Исследователи реализовали пайплайн аннотации с человеком в цикле (human-in-the-loop), который значительно сокращает время ручной аннотации:

  1. Аннотация поражений КТ: Сократилось время аннотации с 525.9 секунд до 74.3 секунд на поражение (на 85.86% быстрее) за три итеративных раунда, что позволило аннотировать 5,000 поражений КТ;
  2. Аннотация поражений печени на МРТ: уменьшилось время аннотации с 520.3 секунд до 65.2 секунд на поражение (на 87.47% быстрее), что ускорило аннотацию 3,984 поражений печени на МРТ;
  3. Аннотация видео эхокардиографии: cократилось время аннотации с 102.3 секунд до 8.4 секунд на кадр (на 91.79% быстрее), что позволило аннотировать 251,550 кадров из 1,800 видео.

Этот итеративный процесс демонстрирует, как производительность модели улучшается с каждым раундом обратной связи от человека, создавая благотворный цикл, который постоянно повышает эффективность аннотации.

Доступность и развертывание с открытым исходным кодом

medsam2 deployment

Ключевым преимуществом MedSAM2 является ее полностью открытый исходный код, предоставляющий исследовательскому и клиническому сообществу полный доступ к:

  • Полному исходному коду: все детали реализации модели и пайплайны обучения;
  • Предобученным весам модели: готовые к использованию модели без необходимости дорогостоящего переобучения;
  • Аннотированным наборам данных: ценные ресурсы для бенчмаркинга и дальнейших исследований;
  • Плагину для 3D Slicer: расширение с открытым исходным кодом для популярной платформы медицинской визуализации.

Технические ограничения

MedSAM2 имеет ряд ограничений:

  1. Зависимость от boundary box: опора на прямоугольные рамки в качестве основных подсказок ограничивает возможности сегментации сложных анатомических структур, таких как тонкие, разветвленные сосуды.
  2. Фиксированная конструкция памяти: банк памяти на восемь кадров может быть недостаточным для быстрых или больших движений объекта, потенциально вызывая сбои отслеживания.
  3. Вычислительные требования: несмотря на использование легковесного варианта SAM2.1-Tiny, вывод по-прежнему требует вычислений на GPU, ограничивая развертывание в ресурсно-ограниченных средах.

Заключение

MedSAM2 представляет собой значительный вклад в анализ медицинских изображений, преодолевая разрыв между общими фундаментальными моделями и специфическими для медицинской области приложениями. Ее способность обрабатывать как 3D снимки, так и видео, в сочетании с существенным повышением эффективности аннотации, делает ее ценным инструментом как для исследований, так и для клинического применения. Значительно снижая время аннотации, MedSAM2 облегчает создание более крупных, высококачественных наборов данных, которые будут дальше продвигать прогресс в медицинском ИИ.

Нельзя переоценить важность открытого исходного кода этого проекта. Предоставляя свободный доступ к коду, весам модели, аннотированным наборам данных и инструментам развертывания, исследователи устранили значительные барьеры для входа в область продвинутой сегментации медицинских изображений.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt