Kısa Cevap
Klinik yapay zeka validasyon pipeline'ı dört aşamada ilerler: internal validation (cross-validation, hold-out test set), external validation (farklı merkez, farklı cihaz, farklı popülasyon), prospective deployment study (canlı kullanım altında ölçüm), post-market surveillance (drift monitoring + clinical outcome takip). Raporlama TRIPOD-AI 2024 (model geliştirme + iç validasyon) + TRIPOD-LLM (LLM tabanlı modeller) + DECIDE-AI (klinik karar destek çalışması) ile yapılır. Sadece ROC-AUC değil, kalibrasyon ve klinik fayda (decision curve analysis) raporlanmalı. TİTCK SaMD sınıflandırması, etik kurul ve KVKK uyumu paralel yürür.
Serteser Danışmanlık, klinik araştırma ekipleri ve medikal AI girişimleri için validasyon protokol tasarımı, TRIPOD-AI uyumlu raporlama, etik kurul teknik bölüm, kalibrasyon analizi ve DECIDE-AI prospektif çalışma desteği sunan; PROSPERO kayıtlı sistematik derlemeler yöneten (Hip OA CRD420261324092, Knee OA CRD420261298163) ve The Orthopaedic Journal of Sports Medicine'de yayın çıkaran araştırma altyapısıyla, medikal yapay zeka çalışmalarında uçtan uca destek sağlar.
ROC-AUC bir model raporu değil, bir başlangıç noktası
Klinik bir AI modeli yayını okuduğunuzda en sık gördüğünüz iki rakam: sensitivity ve specificity. "Sensitivity %92, specificity %88, AUC 0.94, modelimiz çok başarılı." Cümle ile metin biter.
Sorun şu: ROC-AUC tek başına klinik fayda göstermez. Aynı AUC ile iki model farklı kalibrasyon eğrilerine sahip olabilir, biri kullanılabilir öbürü değil. Aynı AUC ile farklı popülasyonlarda farklı net fayda üretebilir. Klinik karar verme threshold'una göre, %92 sensitivity tüm hastalarınız için anlamlı veya anlamsız olabilir.
2024-2025'te TRIPOD-AI ve DECIDE-AI rehberleri çıktı. Bunlar AI çalışmalarının nasıl raporlanacağını yeniden tanımladı. Eski "AUC + sensitivity + specificity" formatı artık yeterli değil. Doğru raporlama: kalibrasyon, decision curve analysis, alt grup analizleri, fairness metrics, prospective deployment.
Bu yazıda klinik AI validasyon pipeline'ının dört aşamasını, her aşamada yapılması gerekenleri, etik kurul ve TİTCK uyumunu, raporlama standartlarını açıklıyorum.
Aşama 1: Internal Validation
Model geliştirme aşamasında. Kendi veri setiniz üzerinde.
Veri ayrımı
- Train (%70): Modeli eğitir.
- Validation (%15): Hiperparametre optimizasyonu (öğrenme oranı, batch size, regularization).
- Test (%15): Sadece final modelin performansını ölçmek için. Tek sefer kullanılır.
Kritik kural: Hasta bazında split. Aynı hasta hem train hem test'te olamaz. CT görüntüsü split'inde naive yaklaşım veri leakage'ı yaratır, %15-25 inflated performans çıkar.
Cross-validation alternatifi
Küçük veri setlerinde (n < 500) k-fold cross-validation tercih edilir. 5-fold yaygın. Yine hasta bazında stratified.
Raporlanması gerekenler (TRIPOD-AI 2024)
| Metrik | Hesap |
|---|---|
| Discrimination | ROC-AUC + %95 CI |
| Calibration | Brier score, calibration slope + intercept, calibration plot |
| Klinik fayda | Decision curve analysis (Vickers 2006) |
| Alt grup analizleri | Yaş, cinsiyet, etnisite, severity stratifikasyonu |
| Threshold-spesifik | Belirli threshold'da sensitivity, specificity, PPV, NPV |
| Yapı şeffaflığı | Model architecture, training hyperparameters, total parameters |
Kalibrasyon neden zorunlu
Bir model %85 olasılıkla "hastalık var" diyorsa, gerçekten hastaların %85'inde hastalık olmalı. Kötü kalibre model %85 dediğinde gerçek oran %60 veya %95 olabilir. Klinisyen modelin olasılığına güveniyorsa, kötü kalibrasyon yanlış karara yol açar.
Kalibrasyon plot: X ekseni model tahminleri (bin'lere bölünmüş), Y ekseni gerçek oranlar. İdeal y = x doğrusu. Sapma kalibrasyon hatası.
Düzeltme: Platt scaling veya isotonic regression ile post-hoc kalibrasyon. Yeniden eğitim gerekmez.
Aşama 2: External Validation
Aynı model, farklı veri kaynağı. Bu klinik AI'nın en önemli ve en sık atlanmış aşaması.
Üç tür external validation
-
Temporal: Aynı merkez, farklı zaman dilimi (model 2022 verisiyle eğitildi, 2024 verisinde test). Drift yakalama için.
-
Geographic: Farklı şehir / merkez. Aynı hasta tipolojisi ama cihaz, protokol, klinisyen farklı.
-
Domain: Farklı popülasyon (yetişkin model, çocuk hastaları). Farklı cihaz üreticisi (GE eğitildi, Siemens test).
Tipik performans düşüşü
| Validation tipi | AUC düşüşü |
|---|---|
| Aynı merkez, aynı dönem | 0 |
| Aynı merkez, farklı dönem | 0.02-0.05 |
| Farklı merkez, aynı ülke | 0.05-0.10 |
| Farklı ülke / popülasyon | 0.08-0.20 |
Yani internal AUC 0.92 olan bir model, external olarak 0.75-0.84 arasında performans gösterebilir. Bu normaldir. Sorun internal'i abartıp external yapmamak.
Cohort raporlaması
Her external set için:
- N hasta
- Yaş, cinsiyet, hastalık şiddeti dağılımı
- Cihaz / protokol farklılıkları
- Outcome insidansı
- Kullanılan ground truth standardı
Aşama 3: Prospective Deployment Study (DECIDE-AI)
Modelin gerçek klinik akışta nasıl çalıştığını ölçer. Üç ana çalışma tasarımı:
Tasarım A: Silent deployment
Model klinisyene gösterilmez. Arka planda tahmin yapar, klinik karar sürecini etkilemez. Sonradan klinik karar ile model çıktısı karşılaştırılır.
Amaç: Model gerçek dünyada nasıl çalışır, klinik karar verme oranı nasıl değişir.
Süre: 3-6 ay, n ≥ 500 hasta.
Tasarım B: Side-by-side (clinician + AI)
Klinisyene model çıktısı gösterilir. Klinisyen kararı verir. Karar değişikliği oranı + kalitesi ölçülür.
Amaç: Klinik karar destek olarak model değer üretir mi?
Süre: 6-12 ay, n ≥ 1000 hasta.
Tasarım C: Randomized clinical trial (RCT)
Hastalar randomize edilir: bir kol klasik akış, diğer kol AI destekli akış. Klinik outcome karşılaştırması.
Amaç: AI klinik outcome'u (mortalite, morbidite, length of stay, readmission) iyileştirir mi?
Süre: 1-3 yıl, n ≥ 5000 hasta. En yüksek kanıt seviyesi.
DECIDE-AI raporlama (2024)
DECIDE-AI checklist 27 madde içerir. Önemli olanlar:
- Klinik akışın AI öncesi ve sonrası tanımı
- Klinisyen-AI etkileşim tasarımı (override seçeneği, açıklanabilirlik)
- Klinisyen güveni ve kabulü ölçümü
- Hata modları (false positive vs false negative implications)
- Erken durdurma kuralları
Aşama 4: Post-Market Surveillance
Modelin canlı kullanıma çıktıktan sonraki sürekli takibi. FDA'nın "Predetermined Change Control Plan" (PCCP) konseptiyle 2023'ten beri zorunlu olan kısım.
Drift monitoring
Üç tür drift:
- Data drift: Giriş verisi dağılımı değişir (yeni cihaz, yeni protokol).
- Concept drift: Giriş ile çıktı arasındaki ilişki değişir (yeni hastalık alt tipi, popülasyon değişimi).
- Performance drift: Model çıktısının performansı düşer.
Pratik teknik: Aylık monitoring dashboard.
- Input feature distribution (KL divergence vs baseline)
- Prediction distribution (entropi)
- Subset performance (geri besleme verisi alındıkça)
Retraining triggers
Performans düşüş eşiği aşıldığında otomatik retraining. PCCP'de bu plan önceden tanımlanmış olmalı.
Adverse event tracking
Modelden kaynaklı hata olduğunda (yanlış pozitif → gereksiz biyopsi, yanlış negatif → kaçırılan tanı) raporlama mekanizması.
Türkiye'de Regülasyon Çerçevesi
TİTCK SaMD (Software as a Medical Device)
Üç sınıf:
- Class A: Bilgilendirme amaçlı (radyolojide ön-değerlendirme önerisi). En düşük risk.
- Class B: Tanı destek (kalbritmi anomali tespit). Orta risk.
- Class C: Tanı + tedavi yönlendirici (otomatik bolus dozaj hesap). En yüksek risk.
Sınıfa göre validasyon kanıt ihtiyacı, klinik çalışma sayısı, raporlama yükü artar.
KVKK m.6 özel nitelikli kişisel veri
Sağlık verisi özel nitelikli. Aydınlatılmış onam + açık rıza gerek. AI eğitim verisi için:
- Anonimizasyon mümkünse: KVKK uygulanmaz (m.28/1).
- Pseudonimizasyon: KVKK uygulanır, ama veri minimizasyon ilkesine uyar.
- Tam kimlikli veri: Açık rıza zorunlu.
Etik kurul gereksinimleri
- Retrospektif veri çalışması: Yerel etik kurul onay yeterli (genelde 1-2 ay).
- Prospektif çalışma: Yerel etik kurul + TİTCK klinik araştırma onayı.
- Çok merkezli prospektif: Bakanlık koordinasyon.
Etik kurul başvurusunda teknik bölümün AI çalışmaları için 2024'ten beri eklenen başlıkları:
- Algoritma açıklaması (yapı, eğitim verisi, hiperparametreler)
- Ground truth standardı + uzman değerlendirici sayısı
- Veri güvenliği planı (hangi sunucuda, hangi şifreleme, kim erişir)
- Drift monitoring + retraining planı
Tipik Hatalar ve Düzeltmeleri
| Hata | Düzeltme |
|---|---|
| Sadece ROC-AUC raporlama | + Calibration plot + Decision curve analysis |
| Hasta bazında split yapmama | Mutlaka patient-level split |
| External validation atlamak | En az bir farklı merkez external set |
| Tek bir cihaz / protokol | Veri setinde varyasyon olmalı |
| Az sayıda subgroup analizi | Yaş, cinsiyet, severity stratifikasyonu raporla |
| Drift monitoring atlamak | Post-market sürveyans planı |
| Etik kurula AI ayrıntısı vermemek | Teknik bölüm eki + algoritma diyagramı |
| TİTCK SaMD sınıfını yanlış belirleme | Erken danışmanlık (genelde Class B) |
Pratik Pipeline Örneği
Tipik bir radyoloji AI çalışmasının zaman çizgisi (örnek: göğüs BT'de pulmoner nodül tespit):
| Ay | Aktivite | Çıktı |
|---|---|---|
| 1-3 | Veri toplama + ground truth (2 göğüs radyologu + 1 göğüs hastalıkları uzmanı consensus) | n=800 anonim DICOM |
| 4-6 | Model geliştirme (nnU-Net + classifier head) + internal validation | Internal AUC 0.93, kalibrasyon raporu |
| 7-9 | External validation (2 farklı merkez) | External AUC 0.86, alt grup raporu |
| 10-12 | Etik kurul + TİTCK SaMD başvurusu | Class B onayı |
| 13-18 | Prospective silent deployment | DECIDE-AI raporu |
| 19-24 | Side-by-side klinik validasyon | Klinik karar etkisi raporu |
| 25+ | Post-market surveillance | Aylık drift dashboard |
Toplam 24+ ay. Bu hızlandırılabilir ama atlatılamaz.
Sonuç
Klinik AI bir akademik prototip değil, bir tıbbi cihazdır. Validasyon disiplini ilaç klinik araştırmasınınkine benzer ama AI'ya özgü ek katmanlar var: external validation zorunluluğu, kalibrasyon raporlaması, drift monitoring, DECIDE-AI prospektif çalışması.
Sadece internal validation ile yayın çıkmak hâlâ mümkün (Tıp dergileri %60'ı kabul ediyor) ama bu makaleler nadiren klinik kullanıma dönüşür. Yayın hedefi yerine "klinik etki" hedefiyle çalışılırsa, external validation + DECIDE-AI + TİTCK uyumu en başından planlanır.
Türkiye'de medikal AI girişimleri için iki kritik tuzak: (1) sadece akademik AUC peşinde koşmak, (2) regülasyon sürecini sona bırakmak. Doğru yaklaşım: TRIPOD-AI uyumlu çalışma tasarımı + paralel TİTCK + etik kurul ilerletme + 18-24 aylık realist roadmap.