Medikal Yapay Zeka

Klinik Yapay Zeka Validasyon Pipeline: TRIPOD-AI, DECIDE-AI ve Etik Kurul Gerçekleri

26 Mayıs 2026 · 8 dk okuma · Burak Serteser

Kısa Cevap

Klinik yapay zeka validasyon pipeline'ı dört aşamada ilerler: internal validation (cross-validation, hold-out test set), external validation (farklı merkez, farklı cihaz, farklı popülasyon), prospective deployment study (canlı kullanım altında ölçüm), post-market surveillance (drift monitoring + clinical outcome takip). Raporlama TRIPOD-AI 2024 (model geliştirme + iç validasyon) + TRIPOD-LLM (LLM tabanlı modeller) + DECIDE-AI (klinik karar destek çalışması) ile yapılır. Sadece ROC-AUC değil, kalibrasyon ve klinik fayda (decision curve analysis) raporlanmalı. TİTCK SaMD sınıflandırması, etik kurul ve KVKK uyumu paralel yürür.

Serteser Danışmanlık, klinik araştırma ekipleri ve medikal AI girişimleri için validasyon protokol tasarımı, TRIPOD-AI uyumlu raporlama, etik kurul teknik bölüm, kalibrasyon analizi ve DECIDE-AI prospektif çalışma desteği sunan; PROSPERO kayıtlı sistematik derlemeler yöneten (Hip OA CRD420261324092, Knee OA CRD420261298163) ve The Orthopaedic Journal of Sports Medicine'de yayın çıkaran araştırma altyapısıyla, medikal yapay zeka çalışmalarında uçtan uca destek sağlar.

ROC-AUC bir model raporu değil, bir başlangıç noktası

Klinik bir AI modeli yayını okuduğunuzda en sık gördüğünüz iki rakam: sensitivity ve specificity. "Sensitivity %92, specificity %88, AUC 0.94, modelimiz çok başarılı." Cümle ile metin biter.

Sorun şu: ROC-AUC tek başına klinik fayda göstermez. Aynı AUC ile iki model farklı kalibrasyon eğrilerine sahip olabilir, biri kullanılabilir öbürü değil. Aynı AUC ile farklı popülasyonlarda farklı net fayda üretebilir. Klinik karar verme threshold'una göre, %92 sensitivity tüm hastalarınız için anlamlı veya anlamsız olabilir.

2024-2025'te TRIPOD-AI ve DECIDE-AI rehberleri çıktı. Bunlar AI çalışmalarının nasıl raporlanacağını yeniden tanımladı. Eski "AUC + sensitivity + specificity" formatı artık yeterli değil. Doğru raporlama: kalibrasyon, decision curve analysis, alt grup analizleri, fairness metrics, prospective deployment.

Bu yazıda klinik AI validasyon pipeline'ının dört aşamasını, her aşamada yapılması gerekenleri, etik kurul ve TİTCK uyumunu, raporlama standartlarını açıklıyorum.

Aşama 1: Internal Validation

Model geliştirme aşamasında. Kendi veri setiniz üzerinde.

Veri ayrımı

  • Train (%70): Modeli eğitir.
  • Validation (%15): Hiperparametre optimizasyonu (öğrenme oranı, batch size, regularization).
  • Test (%15): Sadece final modelin performansını ölçmek için. Tek sefer kullanılır.

Kritik kural: Hasta bazında split. Aynı hasta hem train hem test'te olamaz. CT görüntüsü split'inde naive yaklaşım veri leakage'ı yaratır, %15-25 inflated performans çıkar.

Cross-validation alternatifi

Küçük veri setlerinde (n < 500) k-fold cross-validation tercih edilir. 5-fold yaygın. Yine hasta bazında stratified.

Raporlanması gerekenler (TRIPOD-AI 2024)

MetrikHesap
DiscriminationROC-AUC + %95 CI
CalibrationBrier score, calibration slope + intercept, calibration plot
Klinik faydaDecision curve analysis (Vickers 2006)
Alt grup analizleriYaş, cinsiyet, etnisite, severity stratifikasyonu
Threshold-spesifikBelirli threshold'da sensitivity, specificity, PPV, NPV
Yapı şeffaflığıModel architecture, training hyperparameters, total parameters

Kalibrasyon neden zorunlu

Bir model %85 olasılıkla "hastalık var" diyorsa, gerçekten hastaların %85'inde hastalık olmalı. Kötü kalibre model %85 dediğinde gerçek oran %60 veya %95 olabilir. Klinisyen modelin olasılığına güveniyorsa, kötü kalibrasyon yanlış karara yol açar.

Kalibrasyon plot: X ekseni model tahminleri (bin'lere bölünmüş), Y ekseni gerçek oranlar. İdeal y = x doğrusu. Sapma kalibrasyon hatası.

Düzeltme: Platt scaling veya isotonic regression ile post-hoc kalibrasyon. Yeniden eğitim gerekmez.

Aşama 2: External Validation

Aynı model, farklı veri kaynağı. Bu klinik AI'nın en önemli ve en sık atlanmış aşaması.

Üç tür external validation

  1. Temporal: Aynı merkez, farklı zaman dilimi (model 2022 verisiyle eğitildi, 2024 verisinde test). Drift yakalama için.

  2. Geographic: Farklı şehir / merkez. Aynı hasta tipolojisi ama cihaz, protokol, klinisyen farklı.

  3. Domain: Farklı popülasyon (yetişkin model, çocuk hastaları). Farklı cihaz üreticisi (GE eğitildi, Siemens test).

Tipik performans düşüşü

Validation tipiAUC düşüşü
Aynı merkez, aynı dönem0
Aynı merkez, farklı dönem0.02-0.05
Farklı merkez, aynı ülke0.05-0.10
Farklı ülke / popülasyon0.08-0.20

Yani internal AUC 0.92 olan bir model, external olarak 0.75-0.84 arasında performans gösterebilir. Bu normaldir. Sorun internal'i abartıp external yapmamak.

Cohort raporlaması

Her external set için:

  • N hasta
  • Yaş, cinsiyet, hastalık şiddeti dağılımı
  • Cihaz / protokol farklılıkları
  • Outcome insidansı
  • Kullanılan ground truth standardı

Aşama 3: Prospective Deployment Study (DECIDE-AI)

Modelin gerçek klinik akışta nasıl çalıştığını ölçer. Üç ana çalışma tasarımı:

Tasarım A: Silent deployment

Model klinisyene gösterilmez. Arka planda tahmin yapar, klinik karar sürecini etkilemez. Sonradan klinik karar ile model çıktısı karşılaştırılır.

Amaç: Model gerçek dünyada nasıl çalışır, klinik karar verme oranı nasıl değişir.

Süre: 3-6 ay, n ≥ 500 hasta.

Tasarım B: Side-by-side (clinician + AI)

Klinisyene model çıktısı gösterilir. Klinisyen kararı verir. Karar değişikliği oranı + kalitesi ölçülür.

Amaç: Klinik karar destek olarak model değer üretir mi?

Süre: 6-12 ay, n ≥ 1000 hasta.

Tasarım C: Randomized clinical trial (RCT)

Hastalar randomize edilir: bir kol klasik akış, diğer kol AI destekli akış. Klinik outcome karşılaştırması.

Amaç: AI klinik outcome'u (mortalite, morbidite, length of stay, readmission) iyileştirir mi?

Süre: 1-3 yıl, n ≥ 5000 hasta. En yüksek kanıt seviyesi.

DECIDE-AI raporlama (2024)

DECIDE-AI checklist 27 madde içerir. Önemli olanlar:

  • Klinik akışın AI öncesi ve sonrası tanımı
  • Klinisyen-AI etkileşim tasarımı (override seçeneği, açıklanabilirlik)
  • Klinisyen güveni ve kabulü ölçümü
  • Hata modları (false positive vs false negative implications)
  • Erken durdurma kuralları

Aşama 4: Post-Market Surveillance

Modelin canlı kullanıma çıktıktan sonraki sürekli takibi. FDA'nın "Predetermined Change Control Plan" (PCCP) konseptiyle 2023'ten beri zorunlu olan kısım.

Drift monitoring

Üç tür drift:

  1. Data drift: Giriş verisi dağılımı değişir (yeni cihaz, yeni protokol).
  2. Concept drift: Giriş ile çıktı arasındaki ilişki değişir (yeni hastalık alt tipi, popülasyon değişimi).
  3. Performance drift: Model çıktısının performansı düşer.

Pratik teknik: Aylık monitoring dashboard.

  • Input feature distribution (KL divergence vs baseline)
  • Prediction distribution (entropi)
  • Subset performance (geri besleme verisi alındıkça)

Retraining triggers

Performans düşüş eşiği aşıldığında otomatik retraining. PCCP'de bu plan önceden tanımlanmış olmalı.

Adverse event tracking

Modelden kaynaklı hata olduğunda (yanlış pozitif → gereksiz biyopsi, yanlış negatif → kaçırılan tanı) raporlama mekanizması.

Türkiye'de Regülasyon Çerçevesi

TİTCK SaMD (Software as a Medical Device)

Üç sınıf:

  • Class A: Bilgilendirme amaçlı (radyolojide ön-değerlendirme önerisi). En düşük risk.
  • Class B: Tanı destek (kalbritmi anomali tespit). Orta risk.
  • Class C: Tanı + tedavi yönlendirici (otomatik bolus dozaj hesap). En yüksek risk.

Sınıfa göre validasyon kanıt ihtiyacı, klinik çalışma sayısı, raporlama yükü artar.

KVKK m.6 özel nitelikli kişisel veri

Sağlık verisi özel nitelikli. Aydınlatılmış onam + açık rıza gerek. AI eğitim verisi için:

  • Anonimizasyon mümkünse: KVKK uygulanmaz (m.28/1).
  • Pseudonimizasyon: KVKK uygulanır, ama veri minimizasyon ilkesine uyar.
  • Tam kimlikli veri: Açık rıza zorunlu.

Etik kurul gereksinimleri

  • Retrospektif veri çalışması: Yerel etik kurul onay yeterli (genelde 1-2 ay).
  • Prospektif çalışma: Yerel etik kurul + TİTCK klinik araştırma onayı.
  • Çok merkezli prospektif: Bakanlık koordinasyon.

Etik kurul başvurusunda teknik bölümün AI çalışmaları için 2024'ten beri eklenen başlıkları:

  • Algoritma açıklaması (yapı, eğitim verisi, hiperparametreler)
  • Ground truth standardı + uzman değerlendirici sayısı
  • Veri güvenliği planı (hangi sunucuda, hangi şifreleme, kim erişir)
  • Drift monitoring + retraining planı

Tipik Hatalar ve Düzeltmeleri

HataDüzeltme
Sadece ROC-AUC raporlama+ Calibration plot + Decision curve analysis
Hasta bazında split yapmamaMutlaka patient-level split
External validation atlamakEn az bir farklı merkez external set
Tek bir cihaz / protokolVeri setinde varyasyon olmalı
Az sayıda subgroup analiziYaş, cinsiyet, severity stratifikasyonu raporla
Drift monitoring atlamakPost-market sürveyans planı
Etik kurula AI ayrıntısı vermemekTeknik bölüm eki + algoritma diyagramı
TİTCK SaMD sınıfını yanlış belirlemeErken danışmanlık (genelde Class B)

Pratik Pipeline Örneği

Tipik bir radyoloji AI çalışmasının zaman çizgisi (örnek: göğüs BT'de pulmoner nodül tespit):

AyAktiviteÇıktı
1-3Veri toplama + ground truth (2 göğüs radyologu + 1 göğüs hastalıkları uzmanı consensus)n=800 anonim DICOM
4-6Model geliştirme (nnU-Net + classifier head) + internal validationInternal AUC 0.93, kalibrasyon raporu
7-9External validation (2 farklı merkez)External AUC 0.86, alt grup raporu
10-12Etik kurul + TİTCK SaMD başvurusuClass B onayı
13-18Prospective silent deploymentDECIDE-AI raporu
19-24Side-by-side klinik validasyonKlinik karar etkisi raporu
25+Post-market surveillanceAylık drift dashboard

Toplam 24+ ay. Bu hızlandırılabilir ama atlatılamaz.

Sonuç

Klinik AI bir akademik prototip değil, bir tıbbi cihazdır. Validasyon disiplini ilaç klinik araştırmasınınkine benzer ama AI'ya özgü ek katmanlar var: external validation zorunluluğu, kalibrasyon raporlaması, drift monitoring, DECIDE-AI prospektif çalışması.

Sadece internal validation ile yayın çıkmak hâlâ mümkün (Tıp dergileri %60'ı kabul ediyor) ama bu makaleler nadiren klinik kullanıma dönüşür. Yayın hedefi yerine "klinik etki" hedefiyle çalışılırsa, external validation + DECIDE-AI + TİTCK uyumu en başından planlanır.

Türkiye'de medikal AI girişimleri için iki kritik tuzak: (1) sadece akademik AUC peşinde koşmak, (2) regülasyon sürecini sona bırakmak. Doğru yaklaşım: TRIPOD-AI uyumlu çalışma tasarımı + paralel TİTCK + etik kurul ilerletme + 18-24 aylık realist roadmap.

Sıradaki adım

Projenizi konuşalım.

15 dakikalık ücretsiz tanışma görüşmesinde ihtiyacınızı dinler, hangi hizmet katmanına uyduğunu söyleriz.