← Tüm yazılar

Veri Mühendisliği

Klinik Veriyi Makine Öğrenmesine Hazırlamak: Adım Adım Kılavuz

Bir yapay zeka modeli ne kadar iyi tasarlanmış olursa olsun, üzerine eğitildiği veri kadar iyidir. Tıbbi AI çalışmalarında başarısızlıkların büyük çoğunluğu model mimarisinde değil, veri kalitesinde yatar.

Bu yazıda, ham hastane verisini makine öğrenmesi modeline uygun hâle getirmenin temel adımlarını ele alıyoruz.

Ham Klinik Veri Neden Doğrudan Kullanılamaz?

Hastane bilgi sistemlerinden çekilen veriler genellikle şu sorunları barındırır:

Adım 1: Anonimizasyon ve KVKK Uyumu

Yapay zeka modeline girecek her veri, kişisel tanımlayıcılardan arındırılmış olmalıdır. Bu yalnızca etik bir zorunluluk değil, yasal bir gerekliliktir.

Anonimizasyon süreci şunları kapsar:

Etik kurul başvurusunda, verinin nasıl anonimize edileceği teknik olarak belgelenmelidir.

Adım 2: Veri Temizleme

Temizleme süreci verinin yapısına göre değişir, ancak genel adımlar şöyledir:

Eksik veri analizi: Hangi değişkenlerde, ne oranda eksik veri var? Eksiklik rastgele mi yoksa sistematik mi? Bu soruların cevabı, eksik veriyle nasıl baş edileceğini belirler, silme mi, imputation mı?

Aykırı değer tespiti: Box-plot ve Z-skor yöntemleriyle aykırı gözlemler tespit edilir. Her aykırı değer hata değildir; klinik uzman görüşü gerekebilir.

Tutarlılık kontrolü: Yaşı 200 olan hasta, hemoglobin değeri negatif olan kayıt, bu tür mantıksal tutarsızlıklar sistematik olarak taranır.

Adım 3: Feature Engineering

Ham değişkenler her zaman modele doğrudan girmez. Klinik bilgi gerektiren dönüşümler bu aşamada yapılır:

Adım 4: Train–Validation–Test Ayrımı

Medikal AI çalışmalarında veri ayrımı özellikle kritiktir. Küçük veri setlerinde k-fold cross-validation tercih edilirken, büyük veri setlerinde standart 70-15-15 ayrımı uygulanabilir.

Önemli bir nokta: eğer verileriniz farklı hastanelerden geliyorsa, external validation için ayrı bir kohort planlanmalıdır. Bu, modelin gerçek dünya performansını gösterir.

Adım 5: Dokümantasyon

Tüm veri hazırlama adımları, tekrar edilebilirlik için dokümante edilmelidir. Makale yazım aşamasında Methods bölümü için bu dökümanlar doğrudan kullanılır ve hakem sorularına karşı sizi korur.


Klinik veri hazırlama süreci teknik bilgi ve klinik deneyimin kesişiminde durur. Bir biyomedikal mühendis, bu iki dünyayı birleştirerek sürecin hem teknik açıdan sağlam hem de klinik açıdan anlamlı olmasını sağlayabilir.