Akademik Yapay Zeka

Yapay Zeka ile Sistematik Derleme: Title-Abstract Tarama, Veri Çıkarımı ve RoB 2 Otomasyon Sınırları

28 Mayıs 2026 · 8 dk okuma · Burak Serteser

Kısa Cevap

Sistematik derleme sürecinde yapay zeka beş aşamada güvenli kullanılabilir: arama stratejisi taslağı (LLM önerir, librarian doğrular), title-abstract pre-screening (ASReview, Rayyan AI active learning), full-text triage (Claude / GPT uzun-context özet), data extraction draft (RobotReviewer, Distiller AI), RoB 2 ilk önerisi (LLM gerekçesiyle, insan onay zorunlu). Cochrane ve PRISMA 2020, AI çıktısının ikinci bir bağımsız insan değerlendirici tarafından kontrolünü zorunlu tutar; AI tek başına karar verici olamaz.

Serteser Danışmanlık, akademisyen ve klinik araştırma ekipleri için PROSPERO protokol, PRISMA 2020 raporlama, Rayyan AI / ASReview kurulumu, R metafor meta-analiz, RoB 2 ve GRADE değerlendirmesi sunan; PROSPERO kayıtlı sistematik derlemeler yöneten (Hip OA CRD420261324092, Knee OA CRD420261298163) ve The Orthopaedic Journal of Sports Medicine'de yayın çıkaran araştırma altyapısıyla, sistematik derleme tam sürecinde uçtan uca destek sağlar.

Sistematik derleme + yapay zeka: tehlikeli birlik, doğru kullanıldığında

Bir sistematik derleme tipik olarak 1500-3000 saat insan iş gücü ister. Title-abstract screening tek başına iki bağımsız değerlendiriciyle 80-150 saat. Veri çıkarımı 100-200 saat. Risk of bias değerlendirmesi 30-60 saat. Toplam: yaklaşık bir akademisyen-yılı.

Yapay zeka bu süreyi %40-60 kısaltabilir. Ama yanlış noktada kullanılırsa derleme reddedilir, PROSPERO kayıt silinir, dergiden retraction çıkar. 2024'te Lancet Digital Health ve BMJ Evidence-Based Medicine art arda editorial yayınlayıp AI-destekli sistematik derleme için minimum şartları netleştirdi.

Bu yazıda Cochrane Handbook, PRISMA 2020 ve TRIPOD-AI rehberlerine uyumlu, hem akademik ekipler hem CRO / klinik araştırma şirketleri için yapay zeka kullanım haritasını çıkarıyorum. Hangi aşamada hangi araç, ne kadar güvenebilirsiniz, ikinci bağımsız değerlendirici sınırı nerede başlar.

Aşama 1: Soru Formülasyonu ve Arama Stratejisi

PICO (Population, Intervention, Comparator, Outcome) formülasyonu insan + AI işbirliğine açık.

Doğru kullanım pattern'i:

Sistematik derleme PICO formülasyonu yapacağım. Klinik soru:
"Total diz protezi ameliyatından sonra robotik destekli vs konvansiyonel
yaklaşımın 5 yıllık fonksiyonel skor (KSS) farkı"

Lütfen aşağıdaki yapıyı doldur:
- Population: dahil/dışlama yaş, primary/revision, OA/RA, BMI sınırı
- Intervention: hangi robotik platformlar (Mako, ROSA, NAVIO, Cori)
- Comparator: konvansiyonel + computer-assisted (CAS) ayrımı
- Outcome: primary (KSS, FJS) + secondary (revision rate, ROM, complication)
- Study design: RCT, prospective cohort, retrospective cohort dahil mi?
- Time frame: minimum follow-up 24 ay?

Sonra MeSH ve Emtree terimlerini öner.

Çıktı sizin draft'ınızdır. Onaylar, üzerine yazarsınız. Bir uzman librarian (medical research librarian) son aramanın geçerliliğini onaylar. AI önerisi tek başına search strategy olamaz, çünkü Cochrane Handbook bölüm 4 her sistematik derlemenin librarian-validated arama stratejisi gerektirdiğini açık şekilde söyler.

Yapma:

  • "PubMed arama stringini yaz" deyip kopyalayıp doğrudan kullanmak. AI bazen sözdizimi hatalı, bazen yanlış MeSH üretir.
  • ChatGPT'ye "literatür özetle" deyip arama hiç yapmamak. Bu replicable değildir, kabul edilmez.

Aşama 2: Title-Abstract Screening (En Büyük Verim)

AI'nın en güçlü, en güvenli kullanım alanı burası. İki ana araç:

ASReview (açık kaynak, ücretsiz)

Active learning prensibiyle çalışır. Önce 10-20 makaleyi siz manuel olarak include/exclude işaretlersiniz, model öğrenir, geri kalan binlerce makaleyi öncelik sırasına dizer. Yüksek olasılıkla include olanlar üste, düşük olasılıkla include olanlar alta gelir.

Pratik workflow:

  1. PubMed/Embase aramasından 3000-8000 abstract Endnote/RIS olarak ihraç edilir.
  2. ASReview'e yüklenir, BERT veya Naive Bayes model seçilir.
  3. İlk 20 manuel screening + sonra continuous learning ile sıralı tarama.
  4. Erken durma kriteri: Son 200 abstract'ta hiç include olmazsa, %95 olasılıkla geri kalan da exclude.

Kazanç: 5000 abstract'lık bir taramada tipik olarak %50-70 azaltma. 5000 yerine 1500-2500 manuel okumak yetiyor.

Kritik kural: Cochrane gereği iki bağımsız değerlendirici lazım. ASReview tek başına değerlendirici sayılmaz. İki insan, ASReview ile destekli paralel tarar; sonra ikisinin sonuçları reconcile edilir.

Rayyan AI

Web tabanlı, ekip işbirliği için optimize. Otomatik duplicate detection, blind dual screening, ai-suggested include/exclude.

Avantaj: Çoklu ekip üyesinin paralel taraması için en pratik. Dezavantaj: Ücretsiz tier sınırlı, kurumsal kullanımda yıllık 50-300 USD.

Aşamanın PRISMA 2020 raporlaması

PRISMA 2020 madde 8 ve 9: "Used any automation tool? Specify the tool, who validated, and the level of human oversight." Açıkça AI kullanımı raporlanmalı. Genelde Methods bölümünde şu cümle yeterlidir:

"Title-abstract screening was performed by two independent reviewers using Rayyan AI active learning support. Each reviewer manually validated AI suggestions; final inclusion was determined by consensus, with a third reviewer resolving discrepancies."

Aşama 3: Full-Text Triage

Title-abstract aşamasını geçen 200-400 makale full-text okumaya gider. Burada AI ikinci kez devreye girer ama farklı bir rolde: hızlı triage özetleme.

Doğru kullanım:

Bu makale tam metnini okudum (yapıştırıyorum). Aşağıdaki PICO kriterlerime
göre dahil edilmeli mi? Lütfen şu formatta cevapla:

1. Population uyumu (var/yok + neden)
2. Intervention uyumu (var/yok + neden)
3. Comparator uyumu (var/yok + neden)
4. Outcome uyumu (var/yok + neden)
5. Study design uyumu (var/yok + neden)
6. Follow-up süresi (X ay)
7. ÖNERİ: Include / Exclude / Uncertain
8. Eğer Exclude, hangi madde nedeniyle (PRISMA flow için)

PICO:
[buraya kendi PICO yapıştırılır]

Kazanç: Bir full-text makaleyi 15-20 dakika yerine 3-5 dakikada değerlendirebilirsiniz. AI çıktısını kabul etmeden önce siz makaleyi de görmüş olmanız zorunlu (gözden kaçan tablo, supplementary materyal kontrolü).

Kritik: AI'nın "Uncertain" demesi sık olur (kasıtlı dahil ettiyseniz). Bu durumda mutlaka tam okuma + ikinci değerlendirici müzakeresi.

Aşama 4: Veri Çıkarımı

En riskli ama en büyük zaman kazandıran aşama. Tipik bir RCT'den çıkarılacak veri kalemleri:

  • Çalışma karakteristikleri (yıl, ülke, çok merkezli mi)
  • Örneklem (n, ortalama yaş, cinsiyet oranı, BMI, baseline severity)
  • Müdahale (cihaz/ilaç adı, doz, süre, eğitim)
  • Karşılaştırma (kontrol grup detayları)
  • Sonuçlar (her zaman noktasında her outcome için ortalama, SD, n)
  • Risk faktörleri ve subgrup analizleri

Otomatik araçlar

RobotReviewer: RCT'lerden otomatik PICO + RoB çıkarımı. PDF yüklenir, JSON döner. Sadece RCT'lerle çalışır, gözlemsel çalışmalarda kullanılmaz.

Distiller AI (managed service): Kapsamlı veri çıkarımı template'leri, multi-reviewer reconcile UI. Yıllık 1500-4000 USD lisans.

LLM bazlı kendi pipeline'ınız: Claude Sonnet 4 veya GPT-4.1 ile uzun-context PDF okuyup structured JSON çıkarmak. Pratik prompt:

Bu RCT makalesini okudum (yapıştırıyorum). Aşağıdaki JSON şemasına göre
veri çıkar. Bulunmayan alanlar için "NR" (not reported) yaz.

{
  "study_id": "first_author_year",
  "design": "parallel_RCT | crossover_RCT | cluster_RCT",
  "country": "...",
  "n_randomized": {"intervention": 0, "control": 0},
  "n_analyzed": {"intervention": 0, "control": 0},
  "age_mean_sd": {"intervention": [0, 0], "control": [0, 0]},
  "intervention_description": "...",
  "control_description": "...",
  "follow_up_months": 0,
  "primary_outcomes": [
    {
      "name": "KSS",
      "timepoint_months": 24,
      "intervention": {"mean": 0, "sd": 0, "n": 0},
      "control": {"mean": 0, "sd": 0, "n": 0}
    }
  ],
  "funding": "...",
  "conflicts_of_interest": "..."
}

Sadece JSON döndür, başka açıklama yapma.

Kritik kural: AI veri çıkarımı tek başına meta-analize girmez. İkinci bir bağımsız değerlendirici (insan) tüm rakamları PDF'le karşılaştırır. Tipik hata oranı: AI %3-8 rakam yanlışlığı yapar (özellikle SE ↔ SD karışıklığı, subgrup ↔ total karışıklığı).

Performans pratiği: Her 10 makalede bir %100 manuel doğrulama. Sürekli kalite kontrol.

Aşama 5: Risk of Bias (RoB 2 ve ROBINS-I)

RoB 2 (RCT'ler için) 5 domain üzerinden değerlendirme yapar:

  1. Randomization process
  2. Deviations from intended interventions
  3. Missing outcome data
  4. Measurement of outcome
  5. Selection of reported result

Her domain için "Low / Some concerns / High" karar verilir, signaling questions ile yapılandırılmıştır.

AI'nın rolü

RobotReviewer: Otomatik RoB 2 önerisi + gerekçe paragrafı.

LLM tabanlı yaklaşım:

Bu RCT makalesini okudum (yapıştırıyorum). RoB 2 aracını kullanarak 5 domain
değerlendirmesi yap. Her domain için:
1. Hangi signaling question'a hangi cevap
2. Domain hükmü (Low/Some/High)
3. Gerekçe (1-2 cümle, makaleden alıntıyla)

Sonunda overall RoB 2 hükmü (Low/Some/High) ver.

Performans: LLM RoB 2 ile uzman değerlendirici arasında kappa = 0.55-0.65 (orta-iyi uyum). Bu kappa "AI tek başına yeter" demek değil; "AI iyi bir başlangıç noktası" demek.

Pratik workflow:

  1. AI ön değerlendirme yapar, her domain için karar + gerekçe.
  2. İnsan değerlendirici AI çıktısını override edebilir + gerekçeye ekleme/değişiklik yapar.
  3. İkinci bağımsız değerlendirici aynı süreci paralel yapar.
  4. İki insan değerlendirici reconcile eder, uyuşmazlıklarda üçüncü.

Aşama 6: GRADE Kanıt Sertesi

GRADE evaluation 5 ana faktör değerlendirir (risk of bias, inconsistency, indirectness, imprecision, publication bias) ve outcome bazlı sertifika çıkarır.

AI burada da draft yardımcısı olur ama final karar metodologist'in. GRADEpro GDT yazılımı resmi aracı olarak kullanılır; AI sadece önerilen sertifika seviyesi + gerekçe taslağı üretir.

Maliyet vs Zaman: Pratik Senaryo

Tipik 30 makalelik RCT meta-analizi için:

AşamaGelenekselAI destekliTasarruf
Arama + tarama (3000 abstract)60 saat22 saat%63
Full-text triage (200 makale)50 saat22 saat%56
Veri çıkarımı (30 makale × 2 reviewer)80 saat38 saat%53
RoB 2 (30 makale × 2)30 saat17 saat%43
Toplam220 saat99 saat%55

Bu rakamlar gerçek çalışmalardan (Hip OA SR CRD420261324092 ve diğer pratiklerden) hesaplanmıştır.

PRISMA 2020 Reporting ve Etik

PRISMA 2020 checklist + AI extension (PRISMA-AI 2024) tüm AI kullanımının raporlanmasını zorunlu kılar:

  • Hangi AI aracı kullanıldı (versiyon dahil)
  • Hangi aşamada
  • İnsan denetimi nasıl yapıldı
  • Performance metric'leri (precision, recall, kappa)

ICMJE Vancouver: AI bir yazar değildir. Author list'inde yer alamaz. Methods + Acknowledgments bölümünde kullanım belirtilir. ChatGPT veya Claude'a "co-author" demek 2024'ten beri tüm major dergilerde retraction sebebidir.

Ne zaman AI kullanmamalı

Üç durum vardır:

  1. Çok küçük derleme (200 abstract'tan az): AI eğitim eğrisi vakit kaybı. Manuel hızlı.
  2. Hassas patolojiler / nadir hastalıklar: AI Türkçe nadir hastalık terminolojisinde zayıf. Manuel daha güvenli.
  3. Cochrane resmi review: Cochrane'in kendi onaylı pipeline'ı (Cochrane RevMan, EPPI Reviewer) zorunlu. Dış AI araçları kabul edilmez.

Sonuç

Yapay zeka sistematik derlemeyi öldürmez, ölçeklendirir. Doğru kullanıldığında zaman %40-60 kısalır, bağımsız iki değerlendirici prensibi korunur, PRISMA + Cochrane standartları aşılmaz.

Yanlış kullanıldığında halüsinasyon veri çıkarımı, sahte referans, eksik tarama ve dergi retraction'ı doğar. Aradaki fark AI'nın bir yardımcı katman olduğunu, karar verici olmadığını anlamakta.

Ekipler için pratik tavsiye: önce küçük bir pilot derleme (50-100 makale) ile workflow oturtulur, sonra ölçek büyütülür. AI çıktısı her zaman iki bağımsız insan değerlendiricinin sürecinde, ilk taslak veya destekleyici materyal olarak kullanılır.

Sıradaki adım

Projenizi konuşalım.

15 dakikalık ücretsiz tanışma görüşmesinde ihtiyacınızı dinler, hangi hizmet katmanına uyduğunu söyleriz.