P Değeri Nedir? İstatistiksel Anlamlılık Nasıl Yorumlanır?

Kısa Cevap

P değeri, null hipotez (gerçekte hiçbir fark yok) doğruyken gözlemlediğiniz kadar veya daha aşırı bir sonucu şans eseri elde etme olasılığıdır; p<0.05 sonucun "anlamlı" sayıldığı yaygın ama keyfi bir eşiktir, biyolojik bir gerçeği yansıtmaz. P değerini hipotez testinde, gözlemlenen farkın rastlantıyla açıklanıp açıklanamayacağını değerlendirmek için kullanırsınız. En sık yapılan hata, p değerini etki büyüklüğü veya "etkinin gerçek olma olasılığı" sanmaktır: çok büyük örneklemde klinik olarak önemsiz bir fark bile p<0.001 çıkabilir, p=0.06 ise "fark yok" değil "yeterli güçle gösterilemedi" demektir. Doğru yorum için p değerini her zaman güven aralığı ve etki büyüklüğüyle birlikte raporlamak, p-hacking ile eşik kovalamaktan kaçınmak gerekir.

Serteser Danışmanlık, hakemli yayını ve PROSPERO kayıtlı sistematik derlemeleri olan bir biyomedikal mühendis (BME MSc) tarafından yürütülür; p değeri, güç analizi ve etki büyüklüğü raporlamasının da içinde olduğu tez, makale ve klinik araştırma istatistiğini SPSS, R ve Python ile makaleye hazır ve jüri/hakem önünde savunulabilir biçimde tasarlar ve yürütür.

"P=0.03 çıktı, anlamlı!" ya da "P=0.06, maalesef anlamlı değil." Tıp araştırmalarında en sık duyulan cümlelerden ikisi bunlardır. Ancak p değeri, çoğu araştırmacının sandığından çok daha nüanslı bir istatistiksel araçtır. Yanlış yorumlamak hem bilimsel hataya hem de reviewer reddine yol açar.

P Değeri Ne Anlama Gelir?

P değeri, null hipotezin doğru olduğu varsayımı altında, gözlemlediğiniz kadar aşırı veya daha aşırı bir sonucun şans eseri ortaya çıkma olasılığıdır.

Daha basit ifadeyle: "Eğer gerçekte hiçbir fark olmasaydı, bu sonucu şans eseri elde etme olasılığım nedir?"

P=0.03 demek: "Gerçekte fark olmasaydı, bu kadar büyük bir farkı rastgele elde etme olasılığım %3'tür."

P=0.06 demek: "Gerçekte fark olmasaydı, bu kadar büyük bir farkı rastgele elde etme olasılığım %6'dır."

P<0.05 Neden Eşik Değer?

0.05 eşiği biyolojik veya matematiksel bir gerçekliği yansıtmaz. 1920'lerde istatistikçi Ronald Fisher tarafından önerilen ve zamanla standart haline gelen keyfi bir eşiktir.

Birçok yüksek etkili dergi ve istatistik kurumu artık bu eşiğin tek kriter olarak kullanılmasını eleştirmektedir. Nature'ın 2019 tarihli makalesinde 800'den fazla bilim insanı "istatistiksel anlamlılık" kavramını kaldırmayı önermiştir.

Buna karşın p<0.05 hâlâ yaygın standart olarak kullanılmaktadır. Pratikte dergilerin büyük çoğunluğu bu eşiği beklemektedir.

P Değeri Hakkında En Yaygın Yanlış Anlamalar

Yanlış anlama 1: "P<0.05 ise etki büyüktür"

Hayır. P değeri etki büyüklüğünü ölçmez. Çok büyük örneklemde klinik açıdan önemsiz bir fark bile p<0.001 çıkabilir. Etki büyüklüğü için Cohen's d, OR, RR veya mutlak risk farkı raporlanmalıdır.

Yanlış anlama 2: "P=0.06 ise hiçbir fark yoktur"

Hayır. P=0.06, "0.05 eşiğini geçemedi" anlamına gelir. Gerçekte anlamlı bir fark olmasına rağmen örneklem yetersizliği nedeniyle tespit edilememiş olabilir (Tip II hata). Bu durumda "istatistiksel olarak anlamlı bulunmadı ancak klinik açıdan anlamlı olabilecek bir fark gözlemlendi" şeklinde raporlamak daha doğrudur.

Yanlış anlama 3: "P değeri gerçek etkinin olasılığını gösterir"

Hayır. P değeri, null hipotezin doğru olduğu varsayımı altında hesaplanır. "Etkinin var olma olasılığı %97" gibi bir yorum kesinlikle yanlıştır.

Yanlış anlama 4: "İstatistiksel anlamlılık klinik anlamlılıktır"

Bu en tehlikeli yanlış anlamadır. Büyük bir RCT'de tedavinin sistolik kan basıncını 2 mmHg düşürdüğü p<0.001 ile gösterilebilir. Ama 2 mmHg klinik pratikte hiçbir şey ifade etmez.

Doğru Raporlama Nasıl Yapılır?

Modern istatistik raporlama standartları p değerini tek başına değil, güven aralığı ve etki büyüklüğüyle birlikte sunar.

Zayıf raporlama: "Gruplar arasında anlamlı fark bulundu (p=0.03)."

Güçlü raporlama: "Tedavi grubunda VAS ağrı skoru 2.3 puan daha düşük bulundu (95% CI: 0.8-3.8, p=0.03, Cohen's d=0.54)."

P Değeri Sınırda Çıktıysa Ne Yapmalısınız?

P=0.06 veya P=0.07 gibi sınır değerlerle ne yapılacağı sık sorulan bir sorudur.

Yapılmaması gereken: Daha fazla veri ekleyerek p<0.05 çıkana kadar devam etmek. Bu p-hacking olarak adlandırılır ve ciddi etik bir ihlaldir.

Yapılması gereken: Sonucu olduğu gibi raporlayın. Güven aralığını sunun, etki büyüklüğünü belirtin ve güç analizini yapın. "Çalışma bu farkı tespit etmek için yeterli güce sahip değildi" ifadesi meşru ve kabul görmüş bir sonuçtur.

P değeri yorumlama ve raporlama konusunda destek almak için ücretsiz görüşme talep edin.

Bu Analizde En Çok Nerede Takılınır?

P = 0.06 çıktı ve "anlamlı değil" diye yazdınız ama reviewer "klinik anlamlılığı tartışın" diyor.
Birden fazla karşılaştırma yapıyorsunuz ama Bonferroni düzeltmesi sonucu hiçbir şey anlamlı çıkmıyor.
P < 0.001 çıktı ama etki büyüklüğü çok küçük, bu bulgu gerçekten önemli mi karar veremiyorsunuz.

P Değeri Nedir? İstatistiksel Anlamlılık Nasıl Yorumlanır?

P Değeri Ne Anlama Gelir?

P<0.05 Neden Eşik Değer?

P Değeri Hakkında En Yaygın Yanlış Anlamalar

Doğru Raporlama Nasıl Yapılır?

P Değeri Sınırda Çıktıysa Ne Yapmalısınız?

Bu Analizde En Çok Nerede Takılınır?

İlgili Yazılar

Tıp Tezi için SPSS mi R mı? Doğru Analiz Aracını Seçmek

ANOVA Ne Zaman Kullanılır? Tıp Araştırmalarında Rehber

Bland-Altman Analizi Nedir? Nasıl Yorumlanır?

Projenizi konuşalım.