MRMC Çok-Okuyucu Çalışması: Yapay Zeka Tanı Performansını Kanıtlama

Kısa Cevap

MRMC (Multi-Reader Multi-Case) çalışması, bir yapay zeka tanı sisteminin performansını birden fazla okuyucunun (radyolog) birden fazla vakayı değerlendirdiği faktöriyel bir tasarımla kanıtlayan referans yöntemdir. Birincil sonuç ölçütü genellikle okuyucu-ortalamalı AUC'dir ve istatistik, hem okuyucu hem vaka varyabilitesini aynı anda hesaba katan Dorfman-Berbaum-Metz (DBM) veya Obuchowski-Rockette (OR) yöntemiyle yürütülür. İki ana karşılaştırma vardır: standalone (AI tek başına okuyuculara karşı) ve AI-assisted yani MRMC reader study (okuyucu yalnız vs okuyucu+AI, fully-crossed tasarım). FDA, AI/ML tabanlı görüntüleme cihazlarında klinik etkiyi göstermek için tipik olarak okuyucuların AI'lı ve AI'sız okuduğu, çoğunlukla crossover ve washout içeren bir MRMC reader study bekler; AUC veya sensitivite/spesifite farkının %95 güven aralığı sıfırı kapsamamalıdır.

Serteser Danışmanlık, bir medical-AI tıbbi cihazı geliştirip hakemli uluslararası bir dergide yayınlamış bir biyomedikal mühendis (BME MSc) tarafından yürütülür; SaMD/AI cihazlarınızın TİTCK-CDSS, EU-MDR ve FDA dosyalarının çekirdeğindeki standalone ve okuyucu (MRMC) klinik-validasyon çalışmalarını tasarlar, güç analizini ve DBM/OR istatistiğini yürütür ve isimli metodolog olarak imzalar. Klinik PI ve okuyucu koordinasyonu hekim ortağınızda kalır; biz tasarım, örneklem büyüklüğü, analiz planı ve raporlamanın istatistiksel çekirdeğini sahipleniriz.

Bir yapay zeka modelinin "AUC 0.94" çıktısı, bir cihaz dosyasının değil bir araştırma sunumunun cümlesidir. Düzenleyiciye ve klinik karara giden soru daha keskindir: bu model gerçek radyologların elinde, gerçek vakalarda, okuyucudan okuyucuya değişen yorumun gürültüsü altında ölçülebilir bir fark yaratıyor mu? MRMC tasarımı tam olarak bu sorunun istatistiksel cevabını üretmek için vardır.

Bu yazıda MRMC çalışmasının mantığını, iki temel kullanım biçimini (standalone ve AI-assisted), okuyucu varyabilitesini doğru modelleyen DBM/OR istatistiğini, örneklem büyüklüğü mantığını ve FDA ile EU-MDR beklentilerini bir metodologun gözünden açıklıyorum.

MRMC Neden Sıradan Bir Doğruluk Çalışması Değil?

Klasik bir tanısal doğruluk çalışmasında tek bir referans karşısında modelin sensitivitesini ve spesifitesini ölçer, tek bir AUC raporlarsınız. Sorun şu: gerçek klinikte tanıyı model değil, modeli kullanan okuyucu koyar. Ve okuyucular birbirinden farklıdır.

MRMC tasarımı iki belirsizlik kaynağını aynı anda kabul eder:

Vaka varyabilitesi (case variability): Örneklediğiniz hastalar, hedef popülasyonun yalnızca bir örneğidir. Başka hasta seti farklı sonuç verirdi.
Okuyucu varyabilitesi (reader variability): Çalıştırdığınız radyologlar, tüm radyolog evreninin bir örneğidir. Başka okuyucular farklı performans gösterirdi.

Her ikisini de rastgele etki (random effect) olarak modellemek MRMC'nin özüdür. Eğer yalnızca vaka varyabilitesini hesaba katarsanız (sıradan ROC karşılaştırması gibi), güven aralıklarınız yapay olarak dar çıkar ve "anlamlı" bir AI farkı, başka bir okuyucu grubuyla buharlaşabilir. FDA bu yüzden okuyucuyu da rastgele etki olarak ele alan analizleri ister; bulgunun "bu okuyuculara değil, okuyucu popülasyonuna" genellenebilir olmasını talep eder.

İki Temel Çalışma: Standalone ve AI-Assisted

AI görüntüleme cihazları için kanıt mimarisi neredeyse her zaman iki katmanlıdır.

1. Standalone performans çalışması. AI tek başına, insan müdahalesi olmadan değerlendirilir. Çıktısı (skor, olasılık, lokalizasyon) referans standarda karşı ölçülür. Burada okuyucu yoktur; sonuç tipik olarak ROC/AUC, lezyon-düzeyi tespit için ise FROC/AFROC eğrisidir. Bu, cihazın "ham" performansını ve teknik limitlerini belgeler.

2. AI-assisted (MRMC reader study). Asıl klinik iddianın kanıtlandığı yer burasıdır. Aynı okuyucular aynı vakaları iki koşulda okur: AI'sız (unaided) ve AI'lı (aided). Hipotez genellikle üstünlüktür: okuyucu+AI, yalnız okuyucudan istatistiksel olarak daha iyi performans gösterir.

Birincil ölçüt: Okuyucu-ortalamalı AUC farkı (aided - unaided), veya önceden tanımlı bir çalışma noktasında sensitivite/spesifite farkı.
Tasarım: Mümkün olduğunca fully-crossed (her okuyucu her vakayı her iki koşulda okur), böylece istatistiksel güç maksimize edilir.
Sıralama ve hatırlama kontrolü: Okuyucunun ilk okumayı ikinci okumada hatırlamasını engellemek için crossover tasarım ve yeterli washout süresi (tipik olarak 4 hafta) gerekir. Vakalar ve koşullar randomize edilir.

Standalone iyi olup AI-assisted etkisi olmayan bir cihaz, gerçek dünyada klinik değer iddiasını kanıtlayamaz; bu ayrımı en baştan netleştirmek dosyanın kaderini belirler.

Doğru İstatistik: DBM ve Obuchowski-Rockette

MRMC verisini sıradan bir t-testi veya tekrarlı ölçüm ANOVA ile analiz etmek metodolojik bir hatadır, çünkü okuyucu ve vaka çapraz-rastgele yapıdadır. Alan standardı iki yöntemdir:

Dorfman-Berbaum-Metz (DBM): AUC'leri jackknife ile vaka-bazlı pseudovalue'lara dönüştürür, ardından okuyucu ve vaka rastgele etkili bir ANOVA uygular.
Obuchowski-Rockette (OR): Okuyucu-spesifik AUC'leri ve bunların korelasyon yapısını doğrudan modelleyen, AUC'ler arası kovaryansı kullanan yaklaşımdır. Hillis düzeltmeleri ile DBM ile büyük ölçüde eşdeğer hale gelir.

Pratik araçlar: R'da RJafroc (FROC/AFROC dahil) ve Java tabanlı iMRMC (FDA/CDRH'nin desteklediği açık araç) referans uygulamalardır. Çıktı, AUC farkının nokta tahmini, %95 güven aralığı ve okuyucu+vaka belirsizliğini içeren p-değeridir. Lezyon tespit görevlerinde basit ROC yanıltıcıdır; vaka başına birden çok bulguyu hesaba katan JAFROC figure-of-merit tercih edilir.

AI tanı cihazınızın standalone ve okuyucu çalışmasını DBM/OR çekirdeğiyle kurmak için 15 dakikalık ücretsiz scoping talep edin.

Örneklem Büyüklüğü: Okuyucu mu, Vaka mı?

MRMC güç analizi, klasik örneklem hesabından farklıdır çünkü iki boyutta birden örneklersiniz: kaç okuyucu, kaç vaka. Güç, ikisinin de bir fonksiyonudur.

Varyans bileşenleri pilot veya literatürden gelir. Okuyucu-içi, okuyucular-arası ve hata varyansının kestirimleri olmadan güç hesabı yapılamaz. Genellikle küçük bir pilot okuma veya yayınlanmış benzer çalışmalardan varyans bileşenleri alınır.
Hillis-Berbaum yöntemi MRMC için standart güç/örneklem hesabıdır; iMRMC ve RJafroc bunu uygular.
Pratik aralık: Birçok düzenleyici reader study'de 6-15 okuyucu ve hasta+normal karışımı birkaç yüz vaka kullanılır; ama bu sayılar beklenen AUC farkına ve varyans yapısına göre hesaplanmalı, gelenekle değil.
Vaka zenginleştirme (enrichment): Düşük prevalanslı hastalıklarda yeterli pozitif vaka için zenginleştirilmiş örneklem yapılır; ancak bu, raporlanan sensitivite/spesifitenin popülasyon prevalansına nasıl genellendiğini etkiler ve protokolde açıkça ele alınmalıdır.

Az okuyucuyla çok vaka ya da çok okuyucuyla az vaka, güçü asimetrik biçimde etkiler; doğru karışım güç analiziyle bulunur, varsayımla değil.

FDA ve EU-MDR Beklentisi

FDA (CDRH): AI/ML tabanlı görüntüleme cihazlarında, özellikle 510(k) ve De Novo yollarında, klinik performansı göstermek için MRMC reader study fiili standarttır. FDA'nın AI/ML guidance çerçevesi ve önceden belirlenmiş değişiklik kontrol planı (PCCP) konsepti, bu kanıtın yanına yaşam döngüsü yönetimini ekler. Beklenti tipik olarak: crossover + washout içeren, fully-crossed, okuyucuyu rastgele etki olarak ele alan MRMC; birincil ölçüt AUC farkı veya çalışma noktası sensitivite/spesifite farkı; %95 güven aralığı önceden tanımlı sınırı geçmeli (üstünlük için sıfırı kapsamamalı).

EU-MDR ve raporlama: Avrupa tarafında MRMC çalışmanız, Clinical Evaluation Report (CER) içindeki klinik kanıtın çekirdeğini besler; MEDDEV 2.7/1 Rev 4 çerçevesinde kanıt değerlendirmesi yapılır. Ayrıca AI'ya özgü raporlama rehberleri, çalışmanın güvenilirliğini gösterir: TRIPOD-AI (model geliştirme ve validasyon raporlaması), DECIDE-AI (canlı klinik kullanım/okuyucu etkileşimi), STARD-AI (tanısal doğruluk) ve risk değerlendirmesi için PROBAST-AI. EU AI Act Madde 10 (yüksek riskli sistemlerde veri yönetişimi, temsililik ve bias kontrolü) Ağustos 2026'dan itibaren yüksek riskli AI için bağlayıcı hale geliyor; okuyucu çalışmanızın vaka örneklemi bu temsililik gerekçesini desteklemelidir.

Türkiye'de TİTCK'nın klinik karar destek yazılımlarına (CDSS) yönelik düzenleyici çerçevesi de, EU-MDR'ı transpoze ettiği için, benzer mantıkla standalone artı klinik etki kanıtını arar; aynı MRMC tasarımı her üç pazara da hizmet eder.

Sık Yapılan Hatalar

Okuyucuyu sabit etki sayma. Okuyucuyu rastgele etki olarak modellemezseniz güven aralıklarınız sahte biçimde dar çıkar; bulgu başka okuyuculara genellenemez ve FDA bunu reddeder.
Standalone'ı klinik etki sanma. "AI tek başına radyologlardan iyi" demek, "AI radyologu daha iyi yapıyor" demek değildir. Klinik iddia AI-assisted MRMC ile kanıtlanır; ikisini karıştırmak dosyayı çürütür.
Washout ve randomizasyonu atlamak. Crossover okumada yetersiz washout, okuyucunun ilk kararını hatırlamasıyla taşınma (carryover) yanlılığı yaratır ve AI etkisini şişirir ya da maskeler.
Lezyon tespitinde düz ROC kullanmak. Vaka başına birden çok bulgu olan tespit görevlerinde ROC, lokalizasyonu ve çoklu işareti hesaba katmaz; FROC/AFROC veya JAFROC gerekir.
Güç analizini varyans bileşenleri olmadan yapmak. Pilot ya da literatür kaynaklı varyans kestirimleri olmadan üretilen örneklem sayısı temelsizdir; çalışma ya güçsüz ya da gereksiz pahalı kurulur.

İlgili Yazılar

MRMC, bir AI tanı cihazının klinik değerini düzenleyici dilde kanıtlayan en güçlü tek araçtır; ama yalnızca tasarımı, washout'u, faktöriyel yapısı ve DBM/OR analizi doğru kurulduğunda işe yarar. Pratikte projeler bir validation-readiness review ile tasarım boşluklarını kapatarak başlar, ardından standalone artı okuyucu çalışmasının istatistiksel çekirdeği klinik-validasyon kapsamında yürütülür; bu kanıt EU tarafında CER istatistik çekirdeğine doğrudan bağlanır. Kapsam, süre ve bütçe her dosyada farklıdır; bunları ücretsiz scoping görüşmesinde netleştiririz. Klinik PI ve okuyucu lojistiği hekim ortağınızda kalırken, biz tasarımı, güç analizini ve analizi isimli metodolog olarak imzalarız.

Ücretsiz Scoping Görüşmesi

MRMC Çok-Okuyucu Çalışması: Yapay Zeka Tanı Performansını Kanıtlama

MRMC Neden Sıradan Bir Doğruluk Çalışması Değil?

İki Temel Çalışma: Standalone ve AI-Assisted

Doğru İstatistik: DBM ve Obuchowski-Rockette

Örneklem Büyüklüğü: Okuyucu mu, Vaka mı?

FDA ve EU-MDR Beklentisi

Sık Yapılan Hatalar

İlgili Yazılar

Clinical Evaluation Report (CER) İstatistik Bölümü Nasıl Yazılır

EU AI Act Madde 10: Medical-AI'da Veri Yönetişimi ve Temsililik

RWE (Gerçek-Dünya Kanıtı) Medical-AI Protokolü: Tasarım, SAP, Confounding

Projenizi konuşalım.