← Tüm yazılar

Veri Mühendisliği

Klinik Veriyi Makine Öğrenmesine Hazırlamak: Gerçek Zorluklar

"Elimde 500 hastalık veri var, model eğitebiliriz", bu cümleyi çok sık duyuyoruz. Gerçek süreç başladığında ise çoğu araştırmacı beklenmedik engellerle karşılaşıyor. Çünkü ham klinik veri ile ML-ready veri arasındaki mesafe, görünenden çok daha büyüktür.

Hastane Verisi Neden "Hazır" Değildir?

Hastane bilgi sistemleri araştırma için değil, klinik bakım için tasarlanmıştır. Bu iki amaç birbiriyle çelişen veri yapıları üretir.

Aynı teşhis farklı asistanlar tarafından farklı kodlanmış olabilir. Laboratuvar değerleri farklı cihazlardan, farklı referans aralıklarıyla gelmiş olabilir. Görüntüleme verileri farklı protokollerle, farklı cihaz üreticilerinden elde edilmiş olabilir. Hasta takip bilgileri farklı polikliniklerde farklı formatlarda tutulmuş olabilir.

Bu tutarsızlıklar sadece "temizleme" ile çözülmez. Her biri klinik bağlamı anlayan, hem teknik hem medikal yetkinliği olan birinin kararını gerektirir.

KVKK ve Anonimizasyon: Düşündüğünüzden Karmaşık

Hasta adını ve TC kimlik numarasını silmek yeterli değildir. Bu "pseudonymization"dır, gerçek anonimizasyon değil.

Nadir tanılar, belirli bir yaş-cinsiyet-lokasyon kombinasyonu, özgün klinik seyir, bunların kombinasyonu küçük bir veri setinde hastayı yeniden tanımlanabilir kılabilir. Bu k-anonymity problemi olarak bilinir ve KVKK açısından yüksek risk yaratır.

DICOM dosyaları ek risk içerir. Header'da gömülü hasta bilgileri, görüntünün içine yazılmış hasta adı (burned-in annotation), zaman damgaları, bunların tamamı sistematik olarak temizlenmezse anonimizasyon tamamlanmış sayılmaz.

Eksik Veri: Asıl Sorun Miktarı Değil, Deseni

Her klinik veri setinde eksik veri vardır. Asıl soru şudur: Bu eksiklik rastgele mi, yoksa sistematik mi?

Eğer ağır hastaların belirli lab değerleri daha sık eksikse, çünkü o hastalar yoğun bakıma alındı ve rutin tetkikler yapılamadı, bu eksiklik rastgele değildir. Bu "missing not at random" (MNAR) durumudur ve yanlış yönetilirse model sistematik olarak önyargılı olur.

Basit ortalama ile doldurma (mean imputation) bu durumu daha da kötüleştirebilir. Multiple imputation, MICE veya model-based imputation gibi ileri yöntemler gerekebilir, ve hangi yöntemin uygun olduğu verinin yapısına göre karar verilmelidir.

Veri Sızıntısı: Fark Edilmesi En Zor Hata

Data leakage, eğitim verisinden test verisine sızan bilgi, AI çalışmalarında en sık karşılaşılan ve en az fark edilen metodolojik hatalardan biridir.

Hasta-seviye split yapılmamışsa aynı hastanın farklı ziyaretleri hem train hem test setine düşebilir. Model o hastayı "ezberler" ve performans gerçeğin üzerinde görünür.

Normalizasyon veya imputation test setinin bilgisiyle yapılmışsa gerçek dünya performansı düşer. Zaman serisi verilerinde gelecek verisi kullanılmışsa model klinik olarak imkansız bir performans gösterir.

Bu Süreçte Nerede Takılınır?

Araştırmacılar en çok şu noktalarda zorlanır: Farklı kaynaklardan gelen verilerin ortak bir formata getirilmesi. Her hastane sisteminin farklı export formatları. Eksik verinin paterninin anlaşılması. Anonimizasyonun eksiksiz yapıldığının doğrulanması. Train/validation/test ayrımının metodolojik olarak doğru yapılması.

Bunların her biri tek başına bir proje olabilir. Tamamı doğru yapılmadan eğitilen model, gerçek klinik ortamda beklendiği gibi çalışmaz.

Klinik veri hazırlama sürecinizi birlikte planlamak için 30 dakikalık ücretsiz görüşme talep edin.


Bu Analizde En Çok Nerede Takılınır?

İlgili Yazılar