SaMD Klinik-Validasyon Çalışması Nasıl Tasarlanır?

Kısa Cevap

Bir SaMD (Software as a Medical Device) klinik-validasyon çalışması, cihazın hedef popülasyonda, klinikten bağımsız bir referans standarda karşı, tanımlı bir performans hipotezi altında ölçülmesini sağlayacak şekilde önceden kilitlenmiş (locked) bir protokolle tasarlanır. Çekirdek bileşenler şunlardır: önceden belirlenmiş klinik amaç ve hedef popülasyon, standalone (klinisyensiz) performans analizi, bağımsız referans standart (ground truth), birincil son nokta (genellikle AUC-ROC veya eşik bazlı sensitivite/spesifisite), güç analizine dayalı örneklem büyüklüğü ve external validation. Internal validation (geliştirme verisindeki çapraz doğrulama) tek başına yeterli değildir; ayrı bir merkez veya zaman diliminden gelen dış veri seti üzerinde, modeli yeniden eğitmeden yapılan dış doğrulama, regülatör dosyalarının (TİTCK-CDSS, EU-MDR, FDA) beklediği asıl kanıttır.

Serteser Danışmanlık, bir medical-AI tıbbi cihazı geliştirip hakemli uluslararası bir dergide yayınlamış bir biyomedikal mühendis (BME MSc) tarafından yürütülür; SaMD/AI cihazlarınızın TİTCK-CDSS, EU-MDR ve FDA dosyalarının çekirdeğindeki standalone klinik-validasyon çalışmasını tasarlar, istatistiğini yürütür ve isimli metodolog olarak imzalar.

SaMD'ler için en sık görülen başarısızlık nedeni teknik değildir: model dahili test setinde mükemmel performans gösterirken, gerçek bir validasyon çalışmasının istatistiksel iskeleti hiç kurulmamıştır. Regülatör veya bildirilmiş kuruluş (notified body) dosyayı açtığında, önceden kilitlenmiş bir analiz planı, tanımlı bir referans standart ve dış geçerlilik kanıtı arar. Bunların post-hoc üretilmesi mümkün değildir.

Bu yazı, bir SaMD klinik-validasyon çalışmasının metodolojik tasarımını adım adım ele alır: çalışma tipinin seçilmesinden örneklem büyüklüğüne, referans standardın tanımından internal ve external validation ayrımına kadar. Amaç, hem klinik olarak anlamlı hem de regülatör dosyasında savunulabilir bir kanıt üretmektir.

Önce Niyet Beyanı: Klinik Amaç ve Intended Use

Tasarımın ilk adımı istatistik değil, kapsamdır. Validasyon çalışması, cihazın intended use ifadesini birebir test edecek şekilde kurgulanmalıdır. Burada netleştirilmesi gereken sorular:

Klinik fonksiyon nedir? Tarama (triage), tanıya yardım (diagnostic aid, CADx), saptama (detection, CADe), ölçüm (quantification) veya risk öngörüsü mü?
Hedef popülasyon kim? Yaş aralığı, klinik endikasyon, görüntüleme modalitesi, cihaz/üretici çeşitliliği; dahil etme ve dışlama kriterleri.
Otonomi seviyesi nedir? Standalone karar mı veriyor yoksa klinisyene öneri mi sunuyor? Bu, çalışmanın standalone mı yoksa reader study (MRMC) mı olacağını belirler.
Karar eşiği nerede? Çıktı bir olasılık skoru ise, klinik kullanımda hangi cut-off uygulanacaksa validasyonda da o eşik önceden sabitlenmelidir.

Bu niyet beyanı, sonradan değiştirilemeyecek şekilde protokole yazılır. EU-MDR kapsamında bu çerçeve, klinik değerlendirme planının (MEDDEV 2.7/1 Rev 4 yapısı) temelini oluşturur; TİTCK Tıbbi Cihaz Yönetmeliği EU-MDR'ı birebir transpoze ettiği için aynı standalone performans beklentisi Türkiye dosyası için de geçerlidir.

Standalone Performans Çalışmasının Mimarisi

Çoğu SaMD için birincil kanıt standalone performans çalışmasıdır: model çıktısı, hiçbir klinisyen müdahalesi olmadan, sabit referans standarda karşı ölçülür. Tasarım kararları:

Çalışma tipi: Çoğunlukla retrospektif, kesitsel tanısal doğruluk çalışması (diagnostic accuracy study). Raporlama STARD 2015 ve yapay zeka uzantısı (STARD-AI hazırlık aşamasında) çerçevesine oturmalıdır.
Veri akışının önceden kilitlenmesi: Model ağırlıkları, ön işleme adımları ve karar eşiği validasyon verisi görülmeden dondurulur (locked model). Validasyon sırasında hiçbir hiperparametre ayarı yapılmaz; aksi halde çalışma "validasyon" değil "geliştirme" olur.
Index test ve referans standart kör değerlendirmesi: Referans standardı belirleyen uzmanlar model çıktısını, modeli çalıştıranlar ise referansı görmemelidir (blinding).
Önceden tanımlı analiz popülasyonu: Eksik veri, teknik başarısızlık (uninterpretable cases) ve dışlamaların nasıl ele alınacağı protokolde belirtilir; sonradan vaka çıkarmak bias üretir.

Standalone sonuçlar, cihazın ham diskriminatif gücünü gösterir ve klinik iş akışı etkisinden (workflow effect) ayrıştırılmış olur. Bu ayrım, hem regülatörün hem de hakemlerin ilk baktığı yerdir.

Birincil Son Nokta ve Performans Metrikleri

Metrik seçimi klinik amaca bağlıdır ve birincil son nokta tek olmalıdır:

AUC-ROC: Eşikten bağımsız ayırt etme gücünü özetler; tarama ve sıralama amaçlı cihazlarda birincil metrik olarak yaygındır. Güven aralığı (genellikle DeLong yöntemiyle) raporlanır.
Sensitivite ve spesifisite: Önceden sabitlenmiş klinik eşikte raporlanır. Saptama (CADe) cihazlarında genellikle yüksek sensitivite önceliklidir; bu durumda spesifisite ikincil son nokta olur.
PPV/NPV: Hedef popülasyonun gerçek prevalansına duyarlıdır; çalışma örnekleminin prevalansı popülasyondan farklıysa bu değerler doğrudan genellenemez, bu sınırlama açıkça belirtilmelidir.
Kalibrasyon: Risk öngören modellerde diskriminasyon kadar önemlidir; kalibrasyon eğrisi ve gözlenen/beklenen oran raporlanır. TRIPOD-AI bu kalemleri açıkça talep eder.

Birincil hipotez, performans alt sınırının (örneğin AUC veya sensitivite için önceden belirlenmiş bir performans goal) güven aralığının alt ucuyla test edilmesi şeklinde kurulur. "Modelimiz %95 doğruluk verdi" tipi nokta tahminleri, güven aralığı ve önceden tanımlı eşik olmadan regülatör için kanıt değildir.

SaMD cihazınızın hangi metriğin birincil son nokta olması gerektiğini ve performans hedefini klinik amaca göre netleştirmek için 15 dakikalık ücretsiz scoping talep edin.

Referans Standart (Ground Truth) Tasarımı

Validasyon çalışmasının kalitesi referans standardın kalitesini geçemez. Tasarım kararları:

Bağımsızlık: Referans standart, modelin eğitiminde kullanılan etiketleme sürecinden ayrı olmalıdır. Aynı okuyucunun hem eğitim hem referans etiketini ürettiği durum gizli sızıntı yaratır.
Standardın seviyesi: Mümkünse histopatoloji, takip sonucu veya çoklu uzman konsensüsü gibi "sert" bir referans tercih edilir. Uzman konsensüsü kullanılıyorsa okuyucu sayısı, deneyim seviyesi ve uyuşmazlık çözüm kuralı önceden tanımlanır.
Gözlemciler arası uyum: Referansı tanımlayan uzmanlar arasındaki uyum (örneğin Cohen/Fleiss kappa veya ICC) ölçülür ve raporlanır; düşük uyum, referansın kendisinin gürültülü olduğunu gösterir.
Imperfect reference standard sorunu: Referans kusursuz değilse (sıklıkla değildir), bunun performans tahmini üzerindeki etkisi tartışılmalı, gerekirse duyarlılık analizi yapılmalıdır.

Örneklem Büyüklüğü: Tahmin Değil, Güç Analizi

SaMD validasyonunda örneklem büyüklüğü, "elimizdeki tüm vakalar" mantığıyla değil, birincil son noktayı hedeflenen kesinlikte tahmin edecek formel bir hesapla belirlenir:

AUC için: Hedeflenen güven aralığı genişliği ve beklenen AUC üzerinden (örneğin Hanley-McNeil yaklaşımı) hasta ve kontrol sayıları hesaplanır. Pozitif vaka sayısı (event sayısı) çoğu zaman toplam N'den daha bağlayıcıdır.
Sensitivite/spesifisite için: Her biri için ayrı kesinlik hedefi konur; nadir hedef bulgularda yeterli pozitif vaka toplamak en zor kısımdır ve çalışma süresini belirler.
Alt grup analizleri: Cihaz, klinik olarak anlamlı alt gruplarda (cinsiyet, yaş bandı, cihaz üreticisi, hastalık şiddeti) çalışmalıdır. EU AI Act Madde 10 (yüksek riskli sistemler için veri yönetişimi, Ağustos 2026'dan itibaren bağlayıcı) ve FDA AI/ML rehberleri, performansın alt gruplarda da raporlanmasını ve veri temsililiğini açıkça beklemektedir. Bu, toplam örneklemi yukarı çeken bir kısıttır.

Güç analizi protokolün, dolayısıyla istatistiksel analiz planının (SAP) bir parçasıdır ve veriye bakılmadan önce yazılır.

Internal vs External Validation: Asıl Ayrım

Bu ayrım, SaMD validasyonunun belkemiğidir ve en sık atlanan noktadır:

Internal validation: Modelin geliştirildiği veri kaynağından gelen örneklerle yapılan değerlendirmedir (hold-out test seti, k-fold ya da bootstrap çapraz doğrulama). Optimizmi azaltır ama dağılım kaymasını (distribution shift) yakalayamaz. Tek başına regülatör için yeterli değildir.
External validation: Modeli yeniden eğitmeden, farklı bir kaynaktan (başka merkez, başka cihaz/üretici, başka zaman dilimi, başka coğrafya) gelen bağımsız veri üzerinde test etmektir. PROBAST-AI'nin yüksek bias riski işaretlediği başlıca alan, dış doğrulamanın eksikliğidir.
Temporal vs geographic external validation: Aynı merkezin gelecekteki vakaları (temporal) en zayıf dış geçerlilik biçimidir; bağımsız merkez verisi (geographic) daha güçlüdür. Hangisinin yapıldığı açıkça belirtilmelidir.
Tek-kilit kuralı: Dış doğrulama seti yalnızca bir kez, kilitli modelle çalıştırılmalıdır. Sonuca bakıp model üzerinde değişiklik yapıp seti tekrar koşmak, dış doğrulamayı geçersiz kılar.

TRIPOD-AI ve PROBAST-AI, dış doğrulamanın varlığını ve niteliğini doğrudan değerlendirir; bu yüzden tasarım aşamasında bağımsız bir dış veri kaynağının kilitlenmesi, sonradan giderilemeyecek bir gerekliliktir.

Sık Yapılan Hatalar

Train-test sızıntısı: Aynı hastanın farklı görüntülerinin hem eğitim hem test setinde bulunması, ya da preprocessing/feature seçiminin tüm veri üzerinde yapılması performansı yapay olarak şişirir ve dış doğrulamada çöker.
Eşiğin veriye bakılarak seçilmesi: Sensitivite/spesifisite için karar eşiğinin validasyon setinde optimize edilmesi, raporlanan performansı iyimserliğe boğar. Eşik önceden sabitlenmelidir.
Internal validation'ı external diye sunmak: Aynı merkezin rastgele bölünmüş test seti dış doğrulama değildir; bunu dosyada dış geçerlilik olarak göstermek bildirilmiş kuruluş incelemesinde geri döner.
Sonradan analiz planı yazmak: Performans görüldükten sonra birincil son noktayı, alt grupları veya dışlama kriterlerini belirlemek (HARKing) çalışmayı doğrulanamaz hale getirir. SAP, kilitli ve tarihli olmalıdır.

İlgili Yazılar

İyi tasarlanmış bir SaMD klinik-validasyon çalışması, kilitli bir model, bağımsız bir referans standart, önceden yazılmış bir analiz planı ve gerçek bir dış doğrulama setiyle başlar. Bu iskelet kurulduğunda hem hakemli yayın hem de TİTCK-CDSS, EU-MDR veya FDA dosyası aynı kanıttan beslenir. Kapsam, süre ve bütçe her dosyada farklıdır; bunları ücretsiz scoping görüşmesinde netleştiririz. Tasarımı baştan doğru kurmak, sonradan yeniden veri toplamaktan her zaman daha ucuzdur.

Ücretsiz Scoping Görüşmesi

SaMD Klinik-Validasyon Çalışması Nasıl Tasarlanır?

Önce Niyet Beyanı: Klinik Amaç ve Intended Use

Standalone Performans Çalışmasının Mimarisi

Birincil Son Nokta ve Performans Metrikleri

Referans Standart (Ground Truth) Tasarımı

Örneklem Büyüklüğü: Tahmin Değil, Güç Analizi

Internal vs External Validation: Asıl Ayrım

Sık Yapılan Hatalar

İlgili Yazılar

Clinical Evaluation Report (CER) İstatistik Bölümü Nasıl Yazılır

EU AI Act Madde 10: Medical-AI'da Veri Yönetişimi ve Temsililik

RWE (Gerçek-Dünya Kanıtı) Medical-AI Protokolü: Tasarım, SAP, Confounding

Projenizi konuşalım.