Medikal Veri Seti Kürasyonu: Ground Truth, Annotation ve KVKK Uyumu

Kısa Cevap

Medikal veri seti kürasyonu altı aşamalı bir süreçtir: PHI ayıklama ve pseudonimizasyon, DICOM standartlaştırma, ground truth protokolü, çoklu uzman annotation ve uzlaşı (consensus), kalite kontrolü, train/validation/test ayrımı (hasta bazında, leak-free). Yapay zeka çalışmasının tüm performansı bu sürecin titizliğine bağlıdır.

Serteser Danışmanlık, ilk yapay zeka çalışmasını yapacak hekimler için klinik veri mühendisliği, ground truth protokolü ve TRIPOD uyumlu validasyon planı sunan, PROSPERO kayıtlı sistematik derlemeler yöneten (Hip OA CRD420261324092, Knee OA CRD420261298163) ve uluslararası hakemli bir dergide yayın çıkaran araştırma altyapısıyla, medikal AI veri seti kurulumunda uçtan uca destek sağlar.

Modelden önce veri seti gelir

Hekimle yapılan ilk AI çalışmaları toplantısında en sık duyulan cümle: "Hangi modeli kullanacağız?" Cevap şu: o aşamaya gelmeden önce 2-3 ay veri seti üzerinde çalışacağız. Yapay zeka çalışmasının başarısının %70'i model değil, veri seti kalitesidir.

Modern transfer learning ile küçük veri setlerinde bile makul performans alınıyor. Ama "veri seti küçük olabilir" ile "veri seti özensiz olabilir" aynı şey değil. 100 hastalık titiz bir veri seti, 1000 hastalık özensiz bir veri setinden daha iyi model üretir. Klinik AI'da reproducibility krizi, model değil, veri seti yetersizliğinden geliyor.

Bu yazıda klinik veriden modele hazır veri setine giden altı aşamayı, her aşamadaki tipik hataları ve KVKK uyumunun nereye girdiğini anlatıyorum.

Aşama 1: PHI ayıklama ve pseudonimizasyon

Klinik veri hassas kişisel veri. KVKK 6. madde özel nitelikli kişisel veri kategorisine giriyor. Hiçbir AI çalışmasında kimliği belirleyici bilgi olmamalı.

DICOM üzerinde PHI temizliği:

DICOM dosyaları zengin metadata içeriyor. Hasta adı, doğum tarihi, TCKN, hasta ID, kurum adı, operatör adı, çalışma açıklaması, çalışma tarihleri. Hepsinin temizlenmesi veya pseudonimize edilmesi gerekiyor.

Standart yaklaşım: DICOM De-identification Profile (DICOM PS 3.15 Annex E).

Basic Profile: temel PHI tag'lerinin temizlenmesi
Retain Patient Characteristics: yaş, cinsiyet, ağırlık tutulur (klinik anlam için kritik)
Retain Longitudinal Temporal Information: tarihler hasta bazlı offset ile shift edilir (çalışma sıralaması korunur, gerçek tarih kaybolur)

Pseudonimizasyon vs anonimizasyon:

Anonimizasyon: kimlik geri döndürülemez. Veri setiniz tamamen anonimse, KVKK uygulanmaz.
Pseudonimizasyon: kimlik bir mapping tablosu ile geri döndürülebilir. KVKK uygulanır ama veri minimizasyon ilkesine uyar.

Klinik AI çalışmasında genelde pseudonimizasyon tercih edilir, çünkü:

Veri kalite kontrolünde "bu görüntü acaba aynı hastaya mı ait?" sorusu sorulabilir
Train/test split'te hasta bazında ayrım yapılabilir (data leakage'ı önler)
Etik kurul revizyonunda hasta geri çağrılabilir

Mapping tablosu güvenliği: Hasta_ID → pseudonim_ID tablosu, veri setinden ayrı saklanır. Şifrelenmiş bir kasada. Erişim sadece çalışma sahibine.

Yaygın hata: DICOM tag'leri temizlerken görüntünün piksel verisindeki "burned-in PHI"yi atlamak. Bazı modalitelerde (özellikle eski ultrason cihazları) hasta bilgisi görüntünün üzerine yazılır. Bu pikseli de temizlemek gerekir, aksi takdirde model girdisinde PHI kalır.

Aşama 2: DICOM standartlaştırma

Aynı hastanenin farklı cihazlarından gelen aynı modalite görüntüleri bile aynı değildir. Üretici, model, parametre setine göre voxel spacing, intensity range, orientation, slice thickness değişir. Modelin girdisini standartlaştırmadan eğitim başlamaz.

Standartlaştırma adımları:

Orientation: RAS, LPS, ITK convention. Bütün görüntüler aynı orientation'a getirilmeli. Bir görüntü RAS, diğeri LPS ise model sağ-sol şaşırır.
Voxel spacing: Tüm görüntüler aynı isotropic veya tanımlı anisotropic spacing'e resample edilmeli.
Intensity normalization: CT için Hounsfield Unit clipping (örnek: kemik için -200 ile 1500 HU arası), MR için z-score normalization veya histogram matching.
ROI cropping veya padding: Model girdisi sabit boyut olmalı. Anatomi merkezli crop veya zero padding.

Bu adımların pipeline'ı genelde Python + SimpleITK + nibabel + monai ile kurulur. Her adımın hangi parametrede çalıştırıldığı versiyon kontrollü tutulmalı, çünkü tek bir parametre değişikliği veri setinin tümünü tekrar üretmeyi gerektirir.

Aşama 3: Ground Truth Protokolü

Ground truth, modelin öğreneceği "doğru cevap". Bu cevabın nasıl üretildiği, çalışmanın bilimsel değerinin temelidir. TRIPOD ve TRIPOD-AI raporlama kılavuzları bu noktayı çok katı tutuyor.

Ground truth tipleri:

Klinisyen annotation (manuel): Bir veya birden fazla uzman görüntüyü/veriyi etiketler. En yaygın yaklaşım. Subjektif değişkenlik içerir, uzman sayısı ve uzlaşı protokolü kritik.
Klinik kanıt (klinik gold standard): Histopatoloji, surgical finding, klinik follow-up. Bir görüntüde "tümör var" diyebilmek için biyopsi sonucunun teyit etmesi gerekir. Bu yaklaşım daha güvenilir, ama veri toplama maliyeti yüksek.
Karma: Manuel annotation + klinik kanıt birleştirilir. Örnek: segmentation için manuel mask + klasifikasyon için klinik tanı.

Protokol soruları:

Kaç uzman annotation yapacak?
Hangi uzmanlık dalı, hangi deneyim yılı?
Uzlaşı (consensus) nasıl kurulacak? Multi-rater oylama, third-arbiter, atlas-uyum?
Belirsiz vakalar ne olacak? Dışlama mı, ayrı kategori mi?
İnter-rater agreement nasıl ölçülecek (Cohen's Kappa, ICC, Dice, IoU)?
Intra-rater agreement (aynı uzman aynı vakayı tekrar etiketleyince ne kadar tutarlı)?

Yaygın hata: Tek uzman annotation. Pilot çalışma için kabul edilebilir, ama yayına giden çalışmada en az iki, ideal üç uzman olmalı, inter-rater agreement raporlanmalı.

Aşama 4: Annotation İş Akışı

Protokolden execution'a geçiş. Burada yazılım altyapısı + uzman zamanı + kalite kontrolü üçgeni kurulur.

Annotation araçları:

3D Slicer: Tıbbi görüntü segmentasyonu için en geniş kullanılan açık kaynak. Multi-rater iş akışını destekler.
ITK-SNAP: Daha hafif, single-user. Klasik segmentasyon için yeterli.
MD.ai, Labelbox, V7 Darwin: Bulut tabanlı, çoklu kullanıcı, audit log dahil. Ticari maliyet var ama büyük veri setlerinde ekip koordinasyonu kolaylaşır.
OHIF + viewer + custom backend: Kuruma özel annotation platformları için tercih.

Annotation öncesi pilot: İlk 10-20 vakayı tüm uzmanlar etiketler. Inter-rater agreement hesaplanır. Düşükse protokol gözden geçirilir, eğitim yapılır, kalibrasyon görüşmesi düzenlenir. Bu adım atlanırsa, 300 vakalık veri setinin tamamı annotated olunca, agreement düşük çıkar ve baştan başlanır.

Tahmin süreleri (ortalama):

2D radyolojik görüntü (X-ray, mammography) bounding box: 30-60 saniye
2D segmentasyon mask: 2-5 dakika
3D MR/CT segmentasyon (örnek: tek anatomik yapı): 10-30 dakika
3D multi-class segmentasyon (4-8 sınıf): 30-90 dakika

500 hastalık bir veri setinde 3D multi-class segmentasyon, tek uzmanın 250-750 saatlik işi. İki uzman ile iki katı. Bu hesap pilot öncesi yapılır, bütçelenir.

Aşama 5: Kalite Kontrolü

Annotation tamamlandıktan sonra otomatik ve manuel kalite kontrolü.

Otomatik kontroller:

Beklenmeyen voxel spacing, orientation, label sınıfı
Boş annotation (tüm voxel = 0)
Aşırı küçük annotation (örnek: 5 voxel'den az bir lezyon mask'i, ya hata ya aşırı uç vaka)
Sınıf dengesizliği raporu

Manuel kontroller:

Random sampling ile %10 vakanın gözden geçirilmesi
Outlier vakaların (en küçük ve en büyük annotation) ayrı incelenmesi
Inter-rater disagreement yüksek vakaların ayrı rapor edilmesi

Re-annotation kuralı: Belirgin hata yakalanan vakalar tekrar etiketlenir. Kaç vaka, hangi nedenle, hangi tarihte değiştirildi, log tutulur.

Aşama 6: Train / Validation / Test Split

Modern AI çalışmalarında ortak hata: hastane bazında veya rastgele split. Doğru split hasta bazında ve stratifiyedir.

Hasta bazında split: Aynı hastanın farklı görüntüleri farklı set'lerde olmazsa data leakage. Hastane A'nın 100 hastasının 80'i train'de, 20'si test'te. Train'deki hastanın takip görüntüsü test'e karışırsa, model "öğrenmiş" gibi görünür, gerçekte aynı hastayı tanır.

Stratified split: Sınıf dağılımı korunur. Train'de %20 pozitif vaka varsa, test'te de %20 olmalı. Outcome dengesizliği varsa stratification şart.

External validation set: Mümkünse farklı kurumdan bağımsız bir test set. Aynı kurumdan veri ile eğitilip aynı kurumdan veri ile test edilen model, dış kuruma genelleşmeyebilir (selection bias, equipment bias).

Tipik oranlar: %70 train, %15 validation (hyperparameter tuning için), %15 test (hold-out, model finalize olduktan sonra tek seferlik). Veri seti küçükse k-fold cross-validation tercih.

TRIPOD-AI 2024 raporlama: Train, validation, external test set'lerinin nasıl ayrıldığı, hangi karakteristiklere göre stratified edildiği, hasta sayısı + demografik özet ile raporlanmalı. Eksik raporlama major revision sebebidir.

KVKK uyumu zinciri

Tüm süreç boyunca KVKK uyumu:

Veri toplama: Etik kurul onayı + KVKK uyumlu açık rıza veya kamu yararı dayanağı (geriye dönük çalışmalarda)
Veri saklama: Şifrelenmiş depolama, erişim kontrolü, audit log
Veri işleme: Sadece çalışma kapsamında, başka amaca kullanılmıyor
Veri paylaşımı: Anonimleştirilmiş veri seti yayında veya repository'de paylaşılabilir, mapping tablosu paylaşılmaz
Veri imhası: Çalışma bittiğinde belirlenen sürede mapping tablosu imha (genelde 5 yıl, etik kurul kararına göre)

Aydınlatma metni ve açık rıza: Çalışma protokolüne göre hazırlanır, etik kurul onayından geçer. Geriye dönük çalışmalarda kamu yararı + bilimsel araştırma istisnası çerçevesinde değerlendirilir.

Yaygın hatalar ve maliyeti

Hata	Nereye yansır	Düzelme maliyeti
Tek uzman annotation	Major revision veya reject	Tüm annotation tekrar, 2-6 ay gecikme
Hasta bazında split yapmamak	Major revision	Modelin yeniden eğitilmesi, raporlama düzeltme
External validation eksik	Bazı dergilerde reject	Yeni kurumdan veri toplama, 6-12 ay
PHI temizliği eksik	Etik ihlal, çalışma durur	Veri yeniden işleme + etik kurul yeniden başvuru
Inter-rater agreement raporlanmamış	Major revision	Hesaplama + raporlama, hızlı
TRIPOD checklist atlama	Major revision	Checklist tamamlama ve manuscript revize, hızlı

Yol haritası

İlk AI çalışması için tipik zaman çizelgesi:

Hafta 1-2: Protokol yazımı (çalışma sorusu, ground truth tanımı, etik kurul)
Hafta 3-4: Etik kurul başvurusu hazırlığı, sözleşmeler
Hafta 5-12 (etik kurul beklenirken): Pilot veri seti üzerinde DICOM pipeline ve annotation aracı testi
Hafta 12-24: Veri toplama + annotation (paralel)
Hafta 24-28: Kalite kontrolü, train/val/test split
Hafta 28+: Model eğitimi, raporlama

Çoğu hekim "modeli yazalım, üç ayda bitirelim" düşünüyor. Gerçek: ciddi bir AI çalışması veri seti aşamasında 6 ay, model + raporlamada 3-6 ay daha sürer. Bu süreyi kısaltan tek şey veri setine erkenden hak vermek.

Araştırma veri altyapınızda destek için akademik danışmanlık hizmetlerini inceleyebilirsiniz.