Radyolojide Yapay Zeka: nnU-Net Segmentasyon

Kısa Cevap

nnU-Net, medikal segmentasyonda 2018'den beri açık-kaynak gold standart referans mimaridir. Modeli el ile değil, veri özelliklerinden otomatik tasarlar (spacing, patch size, batch size, normalization). 2024-2026 best practice'i: 2D nnU-Net'i hızlı baseline için, 3D fullres'i yüksek doğruluk için, 3D cascade'i yüksek çözünürlüklü büyük volume için kullanmak. Detection ve sınıflandırma için MONAI Bundle veya nnDetection tercih edilir. Klinik validasyon TRIPOD-AI raporlamasına uygun yapılır: discovery + temporal validation + external multi-center.

Serteser Danışmanlık, klinik ekipler ve şirketler için medikal yapay zeka model geliştirme, nnU-Net pipeline kurulumu, MONAI entegrasyonu, TRIPOD-AI uyumlu validasyon protokolü ve external multi-center test tasarımı sunan; PROSPERO kayıtlı sistematik derlemeler yöneten (Hip OA CRD420261324092, Knee OA CRD420261298163) ve uluslararası hakemli bir dergide yayın çıkaran araştırma altyapısıyla, tıbbi yapay zeka projelerinin teknik ve yöntemsel iki kanadına paralel destek sağlar.

Neden nnU-Net hâlâ en güçlü referans

2018'de Heidelberg ekibinin (Fabian Isensee) yayınladığı nnU-Net, "kendi kendini yapılandıran" U-Net türü bir framework. Veri setinin spacing, voxel intensities, anatomik yapı ve sample sayısını analiz eder, en uygun mimari konfigürasyonu otomatik tasarlar. Kullanıcı manuel hiperparametre tuning yapmaz.

2018'den 2026'ya, Medical Segmentation Decathlon'da, KiTS, BraTS, AMOS, FLARE gibi büyük yarışmalarda nnU-Net hep ilk üç içinde yer aldı. 2024'ün nnU-Net v2 sürümü PyTorch native, ResEncoder L (residual encoder büyük model) opsiyonu ve daha hızlı veri yükleme ile geldi. 2026 itibariyle medikal segmentasyon için referans baseline olmaya devam ediyor.

Bu yazıda nnU-Net'in nerede güçlü, nerede zayıf olduğunu; modern alternatiflerle (MONAI, SwinUNETR, TotalSegmentator) karşılaştırmasını; ve klinik validasyon için TRIPOD-AI uyumlu pipeline tasarımını açıklıyorum.

nnU-Net'in dört konfigürasyonu

nnU-Net v2'de dört temel konfigürasyon var:

2d: Slice-by-slice 2D U-Net. Hızlı, az GPU. Ama 3D context kaybedilir. İnce yapıları (örnek: damar, sinir) kaçırabilir.

3d_fullres: Full resolution 3D U-Net. Original voxel spacing kullanılır. En yüksek doğruluk, ama GPU bellek pahalı. Tipik 12-24 GB VRAM gerekir.

3d_lowres: Düşük çözünürlüklü 3D U-Net. Büyük yapıların kabaca lokalize edilmesi için. Tek başına kullanılmaz, cascade'in birinci aşamasıdır.

3d_cascade_fullres: İki aşamalı. Önce 3d_lowres bölgeyi bulur, sonra 3d_fullres detay segmentasyon yapar. Büyük volume'lerde (örnek: tüm vücut CT) en doğru sonuç. Eğitim süresi iki katı.

Pratik öneri: Önce 2d ile baseline kurun (1-2 saatte sonuç görürsünüz), sonra 3d_fullres'a geçin. Cascade'i sadece veri büyük (>10 GB voxel başına) ve 3d_fullres bellek bütçesini aşıyorsa kullanın.

Veri hazırlığı: en sık atlanan adım

nnU-Net çalıştırmak basit, ama veri hazırlığı yanlışsa model boşa öğrenir. Üç kritik adım:

1. Format dönüşümü. nnU-Net NIfTI (.nii.gz) bekler. DICOM'dan dönüşüm için dcm2niix kullanılır. Dönüşüm sırasında orientation (LPS / RAS / RAI) korunmalı. Yanlış orientation modelin sol-sağ karıştırmasına neden olur.

2. Etiket numaralandırma. Etiketler 0'dan başlamalı, ardışık olmalı (0=background, 1=organ1, 2=organ2). Boş etiket numarası olmamalı. Yanlış: 0, 1, 2, 5. Doğru: 0, 1, 2, 3.

3. dataset.json. nnU-Net dataset metadata için JSON ister. Channel ID'ler, label adları, training case sayısı yazılır. Bu dosya doğru yazılmadan eğitim başlayamaz.

Tipik hatalar:

Inconsistent voxel spacing (1mm vs 0.5mm karışık): nnU-Net resample eder ama bilgi kaybı olur
Cropping yapmamak (whole-body CT'den sadece pelvis gerekiyorsa)
Label imbalance (örnek: %0.1 oran tümör segmentasyonu): loss function ayarı gerekir

2D vs 3D karar matrisi

Hangi konfigürasyon ne zaman?

Senaryo	Önerilen
X-ray, mammografi	2d
Single-slice ultrason	2d
Cardiac MR cine	2d (frame bazlı) veya 3D+t (advanced)
Knee MRI (kemik + kıkırdak)	3d_fullres
Brain MRI tumor (BraTS)	3d_fullres
Whole-body CT segmentation	3d_cascade_fullres veya TotalSegmentator
Lung nodule detection	nnDetection
Microscopy (sitology)	2d veya Cellpose

2D'nin yanılgısı: "2D hızlı, ben de 2D yaparım". Eğer anatomik yapı 3D'de bağlantılıysa (örnek: damar ağacı, organ contour), 2D kullanmak segmentasyon devamlılığını bozar. Slice'lar arası tutarlılık kaybolur.

3D'nin yanılgısı: "3D her zaman daha iyi". Eğer GPU bütçeniz dar (8 GB VRAM) veya veri 2D modalite (örnek: X-ray, fundus retina foto), 3D abartılı maliyettir.

Transfer learning ve foundation modeller

2024'ten itibaren medikal görüntüleme için transfer learning paradigmasi değişti. Üç katman var:

Eski yaklaşım: ImageNet pre-trained. Doğal görüntü üzerinde eğitilmiş ResNet, EfficientNet. Tıbbi görüntüye transfer eder ama domain gap büyük.

Modern: Medikal foundation model. MedSAM, RadImageNet, MONAI Bundle'lar. Tıbbi görüntü üzerinde milyonlarca örnek ile pre-train edilmiş. Az veri ile (50-200 case) iyi sonuç verir.

State-of-the-art: SAM tabanlı interactive segmentation. SAM (Segment Anything Model) ve SAM-Med2D / SAM-Med3D. Tıklama veya bounding box ile semi-automatic segmentasyon. Ground truth oluşturma sürecini hızlandırır.

nnU-Net 2024 itibariyle ResEnc-L (residual encoder large) varyantını ekledi. Pre-training opsiyonu da var (MAE tabanlı). Küçük veri setlerinde (n=50-100) bu varyantlar standart nnU-Net'ten %2-5 daha iyi Dice score verebiliyor.

MONAI ve alternatif framework'ler

nnU-Net'in alternatifi MONAI (Medical Open Network for AI). NVIDIA ve King's College ortaklığı. Avantajı:

Modüler (kendi loss function, metric, transform'unuzu eklersiniz)
MONAI Bundle: önceden eğitilmiş model paketleri
MONAI Label: aktif annotation tool (3D Slicer entegrasyonu)
Deployment için MONAI Deploy SDK

Karşılaştırma:

Özellik	nnU-Net	MONAI
Setup zorluğu	Düşük	Orta
Customization	Sınırlı	Yüksek
Out-of-box accuracy	Çok yüksek	Yüksek
Production deployment	Manuel	MONAI Deploy SDK
Pre-trained bundles	Sınırlı	Geniş katalog
Detection task	Yok (nnDetection ayrı)	Var (MONAI Detection)

Pratik öneri: Araştırma ve baseline için nnU-Net. Production deployment ve özel pipeline için MONAI. İkisi birlikte de kullanılabilir (nnU-Net ile train, MONAI ile deploy).

TotalSegmentator (Wasserthal 2023) ise CT için 117 anatomik yapıyı tanıyan hazır model. Genel anatomi segmentasyonu için yeniden eğitime gerek yoktur, doğrudan kullanılır.

Detection ve sınıflandırma

Segmentasyon dışı task'lar için:

Detection (lezyon tespiti):

nnDetection (Baumgartner 2021): nnU-Net'in detection versiyonu, RetinaNet tabanlı
MONAI Detection: 3D RetinaNet, deformable DETR
Yolo3D varyantları: hızlı ama medikal accuracy düşük

Classification (örnek: malign vs benign):

3D ResNet, 3D DenseNet
MedMNIST pre-trained modeller
ViT (Vision Transformer) varyantları
SwinUNETR-Cls

Classification'da en sık hata: küçük veri seti (n=500 altı) ile 3D ViT kullanmak. ViT'ler veri açtır, 1000+ örnek olmadan ResNet'i geçemez.

TRIPOD-AI uyumlu validasyon

Bir model geliştirdiniz, Dice 0.92. Yayınlanabilir mi? Cevap: validasyon olmadan hayır.

TRIPOD-AI (Collins 2024, BMJ) klinik prediction model'ler için raporlama standardı. AI model paper'ı için 27 madde:

Development cohort + validation cohort ayrımı
Internal validation (cross-validation veya bootstrap)
Temporal validation (eğitim sonrası bir tarihten itibaren toplanmış veri)
External validation (farklı merkez, farklı tarayıcı, farklı popülasyon)
Calibration analizi (model olasılık tahmini güvenilir mi)
Subgroup analysis (yaş, cinsiyet, etnik köken bazlı performans)
Failure mode analizi (model nerede yanlış yapıyor, neden)

Tipik nnU-Net paper'ları sadece internal cross-validation rapor eder. TRIPOD-AI bunu yetersiz bulur. Klinik kullanım için minimum:

Discovery cohort: train + 5-fold cross-validation
Temporal validation: aynı merkez, 6 ay sonraki veri
External validation: en az 1 farklı merkez, farklı tarayıcı

External validation atlanırsa, model "iç başarı + dış başarısızlık" tuzağına düşer. Aetherly 2024 sistematik derlemesi, medikal segmentasyon modellerinin %43'ünün external validation'da Dice 0.15+ düştüğünü gösterdi. Bu validasyon adımlarının regülasyon kanıtı olarak nasıl bir araya getirildiğini görmek için SaMD klinik-kanit çalışmasının nasıl kurgulandığını ayrıca inceleyebilirsiniz.

DECIDE-AI: klinik deployment için ek standard

TRIPOD-AI raporlamayı standardize eder. DECIDE-AI ise (Vasey 2022, BMJ) klinik deployment evaluation'ı için 27 madde önerir. Erken stage AI'ın klinikte gerçek hekim üzerinde test edilmesi.

Hekim AI önerisini ne sıklıkla kabul ediyor / değiştiriyor
AI olmadan vs AI ile karar verme süresi
AI hata yapınca hekim yakalıyor mu
Final klinik karar AI mı hekim mi etkilemiş

Bir nnU-Net modeli "iyi" çıkabilir ama hekim onu kullanmıyorsa veya yanlış karar verdiriyorsa klinik fayda yoktur. DECIDE-AI bu boşluğu doldurur.

Veri seti ve KVKK

Türkiye'de medikal yapay zeka veri seti küratörlüğü iki taraflı:

Teknik: DICOM anonymization (PHI removal, defacing), patient ID hashing, study UID re-generation. pydicom + dicom-anonymizer kütüphaneleri standart.

Hukuki: Hasta açık rızası veya etik kurul izni. KVKK kapsamında sağlık verisi "özel nitelikli kişisel veri" sınıfındadır. Veri controller (hastane) ile processor (model geliştiren ekip) arasında DPA (data processing agreement) zorunludur.

Federated learning alternatifi: Veri taşınmıyor, model her merkezde local train ediyor, sadece weight'ler birleşiyor. NVIDIA Clara, OpenFL framework'leri var. Multi-center çalışma için KVKK-dostu seçenek.

Pratik çekirdek kontrol listesi

Bir medikal yapay zeka projesinin sağlıklı yürümesi için:

DICOM → NIfTI dönüşümünde orientation korundu mu
Etiket numaralandırma 0'dan ardışık mı
Train/val/test split case-level mi (slice-level değil)
Cross-validation 5-fold yapıldı mı
Temporal validation var mı
External validation en az 1 merkez
Calibration analizi yapıldı mı
Subgroup analysis (yaş, cinsiyet)
TRIPOD-AI raporlama checklist uygulandı mı
DICOM anonymization protokolü doğrulandı mı
KVKK uyumlu DPA imzalandı mı
Model card hazırlandı mı (intended use, limitations)

Sık yapılan üç hata

Hata 1: Veri leak. Aynı hastanın farklı slice'ları train ve val'a düşerse model "bu hastayı tanıyorum" diye yüksek skor verir, external validation çakar. Split her zaman patient-level yapılmalı.

Hata 2: Augmentation aşırılığı. nnU-Net default augmentation'lar (rotation, scaling, mirror) çoğu domain için yeterli. Daha fazla augmentation eklemek sıklıkla over-regularization üretir.

Hata 3: Tek metriğe odaklanma. Sadece Dice score raporlamak yetmez. Hausdorff Distance (sınır accuracy), Surface Dice (klinik anlamlı sınır), sensitivity / specificity ayrı raporlanmalı. Tümör segmentasyonunda Dice 0.88 olabilir ama sınır kayması 5mm ise klinik kullanılamaz.

Medikal yapay zeka için Serteser Danışmanlık desteği

Tıbbi yapay zeka modeli geliştirmek teknik ve metodolojik iki kanat üzerinde durur. Serteser Danışmanlık her iki kanatta destek sunar:

nnU-Net pipeline kurulumu, hiperparametre rehberliği
MONAI Bundle entegrasyonu
DICOM anonymization protokolü ve veri seti küratörlüğü
TRIPOD-AI ve DECIDE-AI uyumlu validasyon tasarımı
External multi-center validation çalışması yönetimi
Etik kurul başvurusu için methodology bölümü
TÜBİTAK 1001/1002 başvurusu için AI methodology

uluslararası hakemli bir dergide yayınlanmış uluslararası hakemli klinik araştırma deneyimi ve aktif sistematik derleme yönetimi ile teknik + yöntemsel iki disiplini birlikte kuran bir araştırma altyapısıyla, medikal yapay zeka projelerinde uçtan uca destek sağlıyoruz.

Kurumunuzda benzer bir yapay zeka veya veri mühendisliği ihtiyacı varsa, profesyonel danışmanlık kapsamında birlikte değerlendirebiliriz.