TRIPOD-AI ve PROBAST-AI: Yapay Zeka Tanı Modeli Raporlama

Kısa Cevap

TRIPOD-AI (2024, BMJ) yapay zeka tabanlı tanı ve prognoz tahmin modellerinin geliştirilmesi ile validasyonunun nasıl raporlanacağını tanımlayan kontrol listesidir; PROBAST-AI ise aynı modellerin risk-of-bias ve uygulanabilirlik (applicability) değerlendirmesini dört alanda (participants, predictors, outcome, analysis) yapan araçtır. TRIPOD-AI "ne yazmalısın" sorusunu, PROBAST-AI "bu çalışmaya güvenilir mi" sorusunu yanıtlar. Hakemler ve regülatörler en çok şu açıklara bakar: veri sızıntısı (train-test ayrımının hasta düzeyinde yapılmaması), tek bir AUC-ROC üzerinden iddia (kalibrasyon ve klinik fayda eksik), external validation yokluğu ve raporlanmamış alt grup performansı. Bu iki rehber TİTCK-CDSS, EU-MDR ve FDA dosyalarındaki performans bölümünün de iskeletini oluşturur.

Serteser Danışmanlık, bir medical-AI tıbbi cihazı geliştirip hakemli uluslararası bir dergide yayınlamış bir biyomedikal mühendis (BME MSc) tarafından yürütülür; SaMD/AI cihazlarınızın TİTCK-CDSS, EU-MDR ve FDA dosyalarının çekirdeğindeki standalone klinik-validasyon çalışmasını TRIPOD-AI uyumlu raporlar, PROBAST-AI ile risk-of-bias zayıflıklarını yayın ve dosya öncesi kapatır, istatistiğini yürütür ve isimli metodolog olarak imzalar.

Bir yapay zeka tanı modeli yayını ya da teknik dosyası okuyan hakemin, bildirilmiş kuruluşun (Notified Body) değerlendiricisinin ya da TİTCK uzmanının elinde iki ayrı soru vardır. Birincisi: "Bu çalışma yeterli bilgiyi şeffaf biçimde raporlamış mı?" İkincisi: "Raporlananlar ışığında bu modelin performans iddiasına güvenebilir miyim?" Bu iki soruyu birbirinden ayırmak, modern AI değerlendirmesinin temelidir.

İlk soruyu TRIPOD-AI, ikincisini PROBAST-AI yanıtlar. İkisi 2024'te BMJ'de eşzamanlı yayımlandı ve klasik TRIPOD (2015) ile PROBAST (2019) rehberlerinin makine öğrenmesi modellerine uyarlanmış halidir. Bir tanı/prognoz modeli geliştirip yayınlayacaksanız ya da bunu bir cihaz dosyasına koyacaksanız, bu iki belge masanızda olmalıdır.

TRIPOD-AI nedir ve neyi raporlar

TRIPOD-AI, "Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis - Artificial Intelligence" kısaltmasının açılımıdır. 27 ana maddelik bir kontrol listesidir ve modelin yaşam döngüsünü uçtan uca raporlar:

Veri kaynağı ve katılımcılar: Hangi merkez, hangi tarih aralığı, hangi dahil/dışlama kriterleri, kaç hasta, kaç görüntü/kayıt. Eğitim ve değerlendirme setlerinin nasıl ayrıldığı.
Predictors (girdiler): Model girdilerinin tanımı, ölçüm zamanı, eksik verinin nasıl ele alındığı (imputation stratejisi).
Outcome (referans standart / ground truth): Hedefin nasıl tanımlandığı, kim tarafından, hangi yöntemle etiketlendiği, okuyucular arası uyum.
Model geliştirme: Mimari, hiperparametre seçimi, sınıf dengesizliği yönetimi, kullanılan yazılım ve sürümleri.
Performans: Sadece ayrım (discrimination, AUC-ROC) değil, kalibrasyon (calibration plot, slope, intercept) ve mümkünse klinik fayda (decision curve analysis, net benefit).

TRIPOD-AI'nin en sık atlanan tarafı şudur: rehber, bir performans sayısının değil, o sayıyı yeniden üretmeye yetecek kadar bilginin raporlanmasını ister. "AUC 0.94" cümlesi TRIPOD-AI'ye uymaz; hangi popülasyonda, hangi referans standarda karşı, hangi belirsizlik aralığıyla (%95 CI) ölçülmüş olduğu uyar.

PROBAST-AI nedir ve neyi değerlendirir

PROBAST-AI ("Prediction model Risk Of Bias ASsessment Tool - AI") bir raporlama değil bir değerlendirme aracıdır. Yani siz çalışmayı raporlarsınız, bir başkası (hakem, sistematik derleme yazarı, regülatör) PROBAST-AI ile sizin çalışmanızı yargılar. Dört alan üzerinden çalışır:

Participants: Veri kaynağı uygun mu, popülasyon hedef kullanım amacını temsil ediyor mu?
Predictors: Girdiler klinik kullanımdaki haliyle, outcome bilgisinden bağımsız olarak mı tanımlanmış?
Outcome: Referans standart güvenilir mi, predictorlardan bağımsız belirlenmiş mi?
Analysis: Örneklem büyüklüğü yeterli mi, eksik veri doğru ele alınmış mı, overfitting/optimism düzeltmesi yapılmış mı, kalibrasyon değerlendirilmiş mi?

Her alan iki açıdan puanlanır: risk of bias (sonuç çarpık mı) ve applicability (bu çalışma benim sorumla örtüşüyor mu). PROBAST-AI'nin "analysis" alanı, makine öğrenmesi modellerinde en sık "high risk" çıkan yerdir, çünkü tam burada veri sızıntısı, küçük örneklem ve eksik kalibrasyon birikir.

TRIPOD-AI ile PROBAST-AI farkı: ne, neyi yanıtlar

Bu ikisini karıştırmak çok yaygın bir hatadır. Net ayrım:

TRIPOD-AI = raporlama standardı. Yazar için. "Çalışmamı tam ve şeffaf yazdım mı?"
PROBAST-AI = risk-of-bias aracı. Değerlendirici için. "Bu çalışmanın sonucuna güvenebilir miyim?"

İlişkileri tek yönlüdür: TRIPOD-AI'ye tam uyumlu raporlanmış bir çalışma, PROBAST-AI değerlendirmesini mümkün kılar. Eksik raporlanan bir çalışmada değerlendirici çoğu alanı "no information" işaretler, bu da pratikte düşük güven anlamına gelir. Yani iyi raporlama, düşük risk-of-bias için ön koşuldur ama tek başına yeterli değildir: kötü tasarlanmış ama dürüstçe raporlanmış bir çalışma da PROBAST-AI'de "high risk" çıkabilir.

Hakem ve regülatörün en sık baktığı açıklar

Yıllar içinde gerek hakem süreçlerinde gerek dosya değerlendirmelerinde aynı zayıflıklar tekrar eder. Bir AI tanı modeli iddiasını çürüten en yaygın açıklar:

Veri sızıntısı (data leakage): Train-test ayrımının görüntü ya da kesit düzeyinde yapılması, hasta düzeyinde yapılmaması. Aynı hastanın bir kesiti train'de, bir kesiti test'te olursa performans yapay olarak %15-25 şişer. PROBAST-AI bunu doğrudan "high risk" olarak işaretler.
Tek metrik üzerinden iddia: Sadece AUC-ROC raporlanması. AUC ayrımı ölçer, kalibrasyonu ölçmez. Mükemmel AUC'li bir model klinikte kullanılamaz kalibrasyona sahip olabilir. TRIPOD-AI calibration plot ister; eksikliği regülatörün ilk sorduğu sorudur.
External validation yokluğu: Modelin yalnızca geliştirildiği merkezde, aynı cihaz ve aynı popülasyonda test edilmesi. EU-MDR ve FDA dosyalarında, farklı merkez/cihaz/popülasyonda yapılmış bağımsız bir validasyon (ideal olarak standalone) beklenir.
Raporlanmamış alt grup performansı: Cinsiyet, yaş, cihaz üreticisi ya da görüntüleme protokolü bazında performansın verilmemesi. EU AI Act Madde 10 (Ağustos 2026 itibarıyla yüksek riskli sistemler için) eğitim verisinin temsil yeterliliğini ve bias yönetimini açıkça talep eder; alt grup performansı bunun kanıtıdır.
Optimism düzeltmesinin atlanması: Küçük örneklemde bootstrapping ya da iç validasyon ile overfitting kaynaklı iyimserliğin düzeltilmemesi. PROBAST-AI "analysis" alanının klasik kırılma noktası.

Tanı modelinizin TRIPOD-AI uyumunu ve PROBAST-AI risk-of-bias profilini yayın ya da dosya öncesi bağımsız bir gözle taramak için 15 dakikalık ücretsiz scoping talep edin.

Bu rehberler regülasyon dosyasının neresinde durur

TRIPOD-AI ve PROBAST-AI akademik raporlama araçları olarak doğdu, ama pratikte cihaz dosyalarının performans bölümünü de besler. TİTCK CDSS (klinik karar destek yazılımları) değerlendirmesinde standalone klinik validasyonun şeffaf raporlanması beklenir; TRIPOD-AI bu raporun iskeletidir. EU-MDR Clinical Evaluation Report (CER) içindeki performans değerlendirmesi MEDDEV 2.7/1 Rev 4 metodolojisini takip eder ve burada modelin analitik/klinik performans kanıtı, PROBAST-AI tipi bir bias değerlendirmesiyle güçlenir. FDA AI/ML çerçevesinde de algoritmanın geliştirme ve validasyonunun şeffaf, yeniden üretilebilir biçimde belgelenmesi temel beklentidir.

Burada kapsam sınırını net çizmek gerekir: ben isimli metodolog ve biyoistatistikçi olarak validasyon çalışmasını tasarlar, istatistiğini yürütür ve TRIPOD-AI uyumlu raporu yazarım. ISO 13485/QMS dokümantasyonu, ürün tescil evrakı ve cihaz hukuku ayrı uzmanlık alanlarıdır; o işleri regülasyon danışmanınız yürütür. Benim sağladığım, dosyanın bilimsel çekirdeği: çalışmanın istatistiksel olarak savunulabilir olması.

Sık Yapılan Hatalar

TRIPOD-AI'yi bir "yazım kuralı" sanmak. Rehber, biçim değil içerik kapsamı tanımlar: eksik raporlanan bir kalibrasyon ya da örneklem hesabı, güzel formatlanmış bir makaleyi de hakem masasında düşürür.
PROBAST-AI'yi sadece sistematik derlemeye özgü sanmak. Aracı kendi çalışmanıza, yayın öncesi öz-değerlendirme olarak uygulamak en ucuz risk azaltma yöntemidir; hakemden önce siz "high risk" alanları kapatırsınız.
External validation ile temporal validation'ı eşitlemek. Aynı merkezin farklı zaman dilimi gerçek dış validasyon değildir; farklı merkez, farklı cihaz, farklı popülasyon gerekir. Regülatör bu farkı bilir.
Fairness ve alt grup analizini "ekstra" sanmak. EU AI Act Madde 10 çerçevesinde temsil yeterliliği ve bias yönetimi yüksek riskli sistemler için yasal beklentidir, opsiyonel bir bonus değildir.

İlgili Yazılar

TRIPOD-AI ve PROBAST-AI, bir yapay zeka tanı modelinin "iyi görünmesi" ile "güvenilir olması" arasındaki farkı kurumsallaştırır. Doğru kullanıldığında, yayın hakemini ve regülatörü ikna eden şey AUC'nin büyüklüğü değil, o AUC'nin nasıl üretildiğine dair şeffaflık ve bias kontrolüdür. Bu çekirdeği yayın ya da dosya öncesi sağlamlaştırmak, sonradan major revizyon veya dosya eksikliğiyle uğraşmaktan kat kat ucuzdur. Kapsam, süre ve bütçe her dosyada farklıdır; bunları ücretsiz scoping görüşmesinde netleştiririz.

Ücretsiz Scoping Görüşmesi

TRIPOD-AI ve PROBAST-AI: Yapay Zeka Tanı Modeli Raporlama

TRIPOD-AI nedir ve neyi raporlar

PROBAST-AI nedir ve neyi değerlendirir

TRIPOD-AI ile PROBAST-AI farkı: ne, neyi yanıtlar

Hakem ve regülatörün en sık baktığı açıklar

Bu rehberler regülasyon dosyasının neresinde durur

Sık Yapılan Hatalar

İlgili Yazılar

Clinical Evaluation Report (CER) İstatistik Bölümü Nasıl Yazılır

EU AI Act Madde 10: Medical-AI'da Veri Yönetişimi ve Temsililik

RWE (Gerçek-Dünya Kanıtı) Medical-AI Protokolü: Tasarım, SAP, Confounding

Projenizi konuşalım.