Klinik AI Validasyon Pipeline: TRIPOD/DECIDE-AI

Kısa Cevap

Klinik yapay zeka validasyon pipeline'ı dört aşamada ilerler: internal validation (cross-validation, hold-out test set), external validation (farklı merkez, farklı cihaz, farklı popülasyon), prospective deployment study (canlı kullanım altında ölçüm), post-market surveillance (drift monitoring + clinical outcome takip). Raporlama TRIPOD-AI 2024 (model geliştirme + iç validasyon) + TRIPOD-LLM (LLM tabanlı modeller) + DECIDE-AI (klinik karar destek çalışması) ile yapılır. Sadece ROC-AUC değil, kalibrasyon ve klinik fayda (decision curve analysis) raporlanmalı. TİTCK SaMD sınıflandırması, etik kurul ve KVKK uyumu paralel yürür.

Serteser Danışmanlık, klinik araştırma ekipleri ve medikal AI girişimleri için validasyon protokol tasarımı, TRIPOD-AI uyumlu raporlama, etik kurul teknik bölüm, kalibrasyon analizi ve DECIDE-AI prospektif çalışma desteği sunan; PROSPERO kayıtlı sistematik derlemeler yöneten (Hip OA CRD420261324092, Knee OA CRD420261298163) ve uluslararası hakemli bir dergide yayın çıkaran araştırma altyapısıyla, medikal yapay zeka çalışmalarında uçtan uca destek sağlar.

ROC-AUC bir model raporu değil, bir başlangıç noktası

Klinik bir AI modeli yayını okuduğunuzda en sık gördüğünüz iki rakam: sensitivity ve specificity. "Sensitivity %92, specificity %88, AUC 0.94, modelimiz çok başarılı." Cümle ile metin biter.

Sorun şu: ROC-AUC tek başına klinik fayda göstermez. Aynı AUC ile iki model farklı kalibrasyon eğrilerine sahip olabilir, biri kullanılabilir öbürü değil. Aynı AUC ile farklı popülasyonlarda farklı net fayda üretebilir. Klinik karar verme threshold'una göre, %92 sensitivity tüm hastalarınız için anlamlı veya anlamsız olabilir.

2024-2025'te TRIPOD-AI ve DECIDE-AI rehberleri çıktı. Bunlar AI çalışmalarının nasıl raporlanacağını yeniden tanımladı. Eski "AUC + sensitivity + specificity" formatı artık yeterli değil. Doğru raporlama: kalibrasyon, decision curve analysis, alt grup analizleri, fairness metrics, prospective deployment.

Bu yazıda klinik AI validasyon pipeline'ının dört aşamasını, her aşamada yapılması gerekenleri, etik kurul ve TİTCK uyumunu, raporlama standartlarını açıklıyorum.

Aşama 1: Internal Validation

Model geliştirme aşamasında. Kendi veri setiniz üzerinde.

Veri ayrımı

Train (%70): Modeli eğitir.
Validation (%15): Hiperparametre optimizasyonu (öğrenme oranı, batch size, regularization).
Test (%15): Sadece final modelin performansını ölçmek için. Tek sefer kullanılır.

Kritik kural: Hasta bazında split. Aynı hasta hem train hem test'te olamaz. CT görüntüsü split'inde naive yaklaşım veri leakage'ı yaratır, %15-25 inflated performans çıkar.

Cross-validation alternatifi

Küçük veri setlerinde (n < 500) k-fold cross-validation tercih edilir. 5-fold yaygın. Yine hasta bazında stratified.

Raporlanması gerekenler (TRIPOD-AI 2024)

Metrik	Hesap
Discrimination	ROC-AUC + %95 CI
Calibration	Brier score, calibration slope + intercept, calibration plot
Klinik fayda	Decision curve analysis (Vickers 2006)
Alt grup analizleri	Yaş, cinsiyet, etnisite, severity stratifikasyonu
Threshold-spesifik	Belirli threshold'da sensitivity, specificity, PPV, NPV
Yapı şeffaflığı	Model architecture, training hyperparameters, total parameters

Kalibrasyon neden zorunlu

Bir model %85 olasılıkla "hastalık var" diyorsa, gerçekten hastaların %85'inde hastalık olmalı. Kötü kalibre model %85 dediğinde gerçek oran %60 veya %95 olabilir. Klinisyen modelin olasılığına güveniyorsa, kötü kalibrasyon yanlış karara yol açar.

Kalibrasyon plot: X ekseni model tahminleri (bin'lere bölünmüş), Y ekseni gerçek oranlar. İdeal y = x doğrusu. Sapma kalibrasyon hatası.

Düzeltme: Platt scaling veya isotonic regression ile post-hoc kalibrasyon. Yeniden eğitim gerekmez.

Aşama 2: External Validation

Aynı model, farklı veri kaynağı. Bu klinik AI'nın en önemli ve en sık atlanmış aşaması.

Üç tür external validation

Temporal: Aynı merkez, farklı zaman dilimi (model 2022 verisiyle eğitildi, 2024 verisinde test). Drift yakalama için.
Geographic: Farklı şehir / merkez. Aynı hasta tipolojisi ama cihaz, protokol, klinisyen farklı.
Domain: Farklı popülasyon (yetişkin model, çocuk hastaları). Farklı cihaz üreticisi (GE eğitildi, Siemens test).

Tipik performans düşüşü

Validation tipi	AUC düşüşü
Aynı merkez, aynı dönem	0
Aynı merkez, farklı dönem	0.02-0.05
Farklı merkez, aynı ülke	0.05-0.10
Farklı ülke / popülasyon	0.08-0.20

Yani internal AUC 0.92 olan bir model, external olarak 0.75-0.84 arasında performans gösterebilir. Bu normaldir. Sorun internal'i abartıp external yapmamak.

Cohort raporlaması

Her external set için:

N hasta
Yaş, cinsiyet, hastalık şiddeti dağılımı
Cihaz / protokol farklılıkları
Outcome insidansı
Kullanılan ground truth standardı

Aşama 3: Prospective Deployment Study (DECIDE-AI)

Modelin gerçek klinik akışta nasıl çalıştığını ölçer. Üç ana çalışma tasarımı:

Tasarım A: Silent deployment

Model klinisyene gösterilmez. Arka planda tahmin yapar, klinik karar sürecini etkilemez. Sonradan klinik karar ile model çıktısı karşılaştırılır.

Amaç: Model gerçek dünyada nasıl çalışır, klinik karar verme oranı nasıl değişir.

Süre: 3-6 ay, n ≥ 500 hasta.

Tasarım B: Side-by-side (clinician + AI)

Klinisyene model çıktısı gösterilir. Klinisyen kararı verir. Karar değişikliği oranı + kalitesi ölçülür.

Amaç: Klinik karar destek olarak model değer üretir mi?

Süre: 6-12 ay, n ≥ 1000 hasta.

Tasarım C: Randomized clinical trial (RCT)

Hastalar randomize edilir: bir kol klasik akış, diğer kol AI destekli akış. Klinik outcome karşılaştırması.

Amaç: AI klinik outcome'u (mortalite, morbidite, length of stay, readmission) iyileştirir mi?

Süre: 1-3 yıl, n ≥ 5000 hasta. En yüksek kanıt seviyesi.

DECIDE-AI raporlama (2024)

DECIDE-AI checklist 27 madde içerir. Önemli olanlar:

Klinik akışın AI öncesi ve sonrası tanımı
Klinisyen-AI etkileşim tasarımı (override seçeneği, açıklanabilirlik)
Klinisyen güveni ve kabulü ölçümü
Hata modları (false positive vs false negative implications)
Erken durdurma kuralları

Aşama 4: Post-Market Surveillance

Modelin canlı kullanıma çıktıktan sonraki sürekli takibi. FDA'nın "Predetermined Change Control Plan" (PCCP) konseptiyle 2023'ten beri zorunlu olan kısım.

Drift monitoring

Üç tür drift:

Data drift: Giriş verisi dağılımı değişir (yeni cihaz, yeni protokol).
Concept drift: Giriş ile çıktı arasındaki ilişki değişir (yeni hastalık alt tipi, popülasyon değişimi).
Performance drift: Model çıktısının performansı düşer.

Pratik teknik: Aylık monitoring dashboard.

Input feature distribution (KL divergence vs baseline)
Prediction distribution (entropi)
Subset performance (geri besleme verisi alındıkça)

Retraining triggers

Performans düşüş eşiği aşıldığında otomatik retraining. PCCP'de bu plan önceden tanımlanmış olmalı.

Adverse event tracking

Modelden kaynaklı hata olduğunda (yanlış pozitif → gereksiz biyopsi, yanlış negatif → kaçırılan tanı) raporlama mekanizması.

Türkiye'de Regülasyon Çerçevesi

TİTCK SaMD (Software as a Medical Device)

Üç sınıf:

Class A: Bilgilendirme amaçlı (radyolojide ön-değerlendirme önerisi). En düşük risk.
Class B: Tanı destek (kalbritmi anomali tespit). Orta risk.
Class C: Tanı + tedavi yönlendirici (otomatik bolus dozaj hesap). En yüksek risk.

Sınıfa göre validasyon kanıt ihtiyacı, klinik çalışma sayısı, raporlama yükü artar.

KVKK m.6 özel nitelikli kişisel veri

Sağlık verisi özel nitelikli. Aydınlatılmış onam + açık rıza gerek. AI eğitim verisi için:

Anonimizasyon mümkünse: KVKK uygulanmaz (m.28/1).
Pseudonimizasyon: KVKK uygulanır, ama veri minimizasyon ilkesine uyar.
Tam kimlikli veri: Açık rıza zorunlu.

Etik kurul gereksinimleri

Retrospektif veri çalışması: Yerel etik kurul onay yeterli (genelde 1-2 ay).
Prospektif çalışma: Yerel etik kurul + TİTCK klinik araştırma onayı.
Çok merkezli prospektif: Bakanlık koordinasyon.

Etik kurul başvurusunda teknik bölümün AI çalışmaları için 2024'ten beri eklenen başlıkları:

Algoritma açıklaması (yapı, eğitim verisi, hiperparametreler)
Ground truth standardı + uzman değerlendirici sayısı
Veri güvenliği planı (hangi sunucuda, hangi şifreleme, kim erişir)
Drift monitoring + retraining planı

Tipik Hatalar ve Düzeltmeleri

Hata	Düzeltme
Sadece ROC-AUC raporlama	+ Calibration plot + Decision curve analysis
Hasta bazında split yapmama	Mutlaka patient-level split
External validation atlamak	En az bir farklı merkez external set
Tek bir cihaz / protokol	Veri setinde varyasyon olmalı
Az sayıda subgroup analizi	Yaş, cinsiyet, severity stratifikasyonu raporla
Drift monitoring atlamak	Post-market sürveyans planı
Etik kurula AI ayrıntısı vermemek	Teknik bölüm eki + algoritma diyagramı
TİTCK SaMD sınıfını yanlış belirleme	Erken danışmanlık (genelde Class B)

Pratik Pipeline Örneği

Tipik bir radyoloji AI çalışmasının zaman çizgisi (örnek: göğüs BT'de pulmoner nodül tespit):

Ay	Aktivite	Çıktı
1-3	Veri toplama + ground truth (2 göğüs radyologu + 1 göğüs hastalıkları uzmanı consensus)	n=800 anonim DICOM
4-6	Model geliştirme (nnU-Net + classifier head) + internal validation	Internal AUC 0.93, kalibrasyon raporu
7-9	External validation (2 farklı merkez)	External AUC 0.86, alt grup raporu
10-12	Etik kurul + TİTCK SaMD başvurusu	Class B onayı
13-18	Prospective silent deployment	DECIDE-AI raporu
19-24	Side-by-side klinik validasyon	Klinik karar etkisi raporu
25+	Post-market surveillance	Aylık drift dashboard

Toplam 24+ ay. Bu hızlandırılabilir ama atlatılamaz.

Sonuç

Klinik AI bir akademik prototip değil, bir tıbbi cihazdır. Validasyon disiplini ilaç klinik araştırmasınınkine benzer ama AI'ya özgü ek katmanlar var: external validation zorunluluğu, kalibrasyon raporlaması, drift monitoring, DECIDE-AI prospektif çalışması.

Sadece internal validation ile yayın çıkmak hâlâ mümkün (Tıp dergileri %60'ı kabul ediyor) ama bu makaleler nadiren klinik kullanıma dönüşür. Yayın hedefi yerine "klinik etki" hedefiyle çalışılırsa, external validation + DECIDE-AI + TİTCK uyumu en başından planlanır.

Türkiye'de medikal AI girişimleri için iki kritik tuzak: (1) sadece akademik AUC peşinde koşmak, (2) regülasyon sürecini sona bırakmak. Doğru yaklaşım: TRIPOD-AI uyumlu çalışma tasarımı + paralel TİTCK + etik kurul ilerletme + 18-24 aylık realist roadmap. Bir SaMD klinik-kanıt çalışmasının uçtan uca nasıl kurgulandığını ayrıca inceleyebilirsiniz.

Kurumunuzda benzer bir yapay zeka veya veri mühendisliği ihtiyacı varsa, profesyonel danışmanlık kapsamında birlikte değerlendirebiliriz.