偽陽性誤判太多，調降p值門檻就好？ @ 盲眼的尼安德塔石器匠

偽陽性誤判太多，調降p值門檻就好？ 原載於新公民議會

「p值（p value）」是統計時常用的值，用於判斷結果是否顯著。p值本身是一個計算出的數字，常見的顯著標準是0.05；對研究人員而言，它常常也是決定生或死的那條界限，若是千辛萬苦得到的數據低於0.05，意謂結果顯著，人生也跟著有了意義。反之，假如超過0.05，那就是實驗失敗，生命變成灰色。

圖片來源：3quarksdaily

近年來，卻有許多學者認為p值並不好用，常常無法反映真實的狀況。更激進的建議是，p值顯著門檻太高，應該調降，比方說降低為0.005（《 ’One-size-fits-all’ threshold for P values under fire）。p值是科學研究方法上，非常重要的議題，本文整理最近的爭議，希望帶給讀者一些想法。

降低顯著門檻最大的好處是，可以減少偽陽性（false positive）的誤判。什麼是偽陽性？例如檢驗吸毒，若是真的有吸，測試得到的結果也有，就是真陽性；反之，假如沒有吸毒，檢驗卻是有吸，則稱作偽陽性，亦即「實際上沒有，算出來卻有，假的！」。

順帶一提，在學校內進行全面吸毒篩檢，科學上不可行的理由，正是由於偽陽性太高，將導致誤判過多。（詳見《全面尿液篩檢的統計陷阱結》）

前面提過，研究人員生死時常決定於p值，因此不乏有人操弄實驗變數，讓p值越過門檻，例如由0.057「調整」後降低為0.049，使不顯著變成顯著，讓論文得以發表。若是降低數字，的確可以遏止此類歪風。然而，學界卻也有很多反對意見。為什麼，難道降低誤判率不好嗎？

我們回到統計與研究。究竟計算p值或是其他指標，對科學有什麼意義？在門檻0.05之下，我們不能說p值算出來0.049是寶，0.050是沒意義的垃圾。p值本身不過是個工具，單看一個值，不足以決定結果有沒有價值。

顯著值不是固定門檻，會根據研究對象改變。例如研究基因組尺度的「全基因組關聯分析（GWAS）」，顯著標準往往非常小，遠遠低於0.05；這非常合理，因為以人類來說，一共有60億個DNA位置，若是門檻設在0.05，偽陽性少說會造成幾百萬個誤判；若是門檻不設小一點，根本無法得到有意義的結果，遑論進一步研究。

實驗結果有沒有科學意義，取決於研究的整體脈絡、研究對象、問的問題、分析方法的設計，以及進一步的發展等等，而不是單一統計指標。在科學上，p值是幫助判斷的指標之一，絕非p值不顯著，結果就沒有意義。

舉個例子，有強烈論文壓力的博士班四年級生，實驗結果p值是0.087，離0.050沒差太遠，那麼合理判斷是：大方向應該對了，微調實驗細節或許有用（喂，不是直接改參數喔！），繼續拼拼看吧！可是如果p值是0.87？差這麼多，搞不好還沒吱吱射飛鏢準確，如此不趕快放棄這個實驗，另謀出路，被當北七怨不得人。而曠日費時又花錢的新藥研發，道理類似。

要讓分析有意義，關鍵在於要用來做什麼、怎麼用、解釋什麼，而不是顯著門檻多少。也有專家建議，下有意義的判斷，光看p值不夠，至少要加上信心區間（confidence intervals）輔助，可以參考以下兩篇文章：

p 值的陷阱（上）：p 值是什麼？又不是什麼？

p 值的陷阱（下）：「摘櫻桃」問題

假如硬性規定讓顯著門檻降低，例如改為0.001，有什麼問題？可能的負面影響是，帳面上失敗率會大增，降低偽陽性的同時，也殺掉許多有潛力的真陽性候選人；本來或許只要調整配方、步驟，就能見效的實驗，就這樣被過度嚴厲的標準在無形中扼殺了。更慘的是，標準更嚴苛，對資源不足的研究團隊影響更大，將對整個學界不利。

p值顯著門檻該不該降，並非是非黑白，而是考量不同的問題，它不適合定為一個死的標準，而該根據不同需求調整。這也是為什麼，不少主張更嚴格標準的支持者，是不做實驗、甚至是不在乎生物意義、有沒有因果關係，只接觸數據的統計學家；或是資源豐厚的大老。而許多質疑、反對者，是與有限預算奮鬥的艱苦人，以及重視生物意義，勝於玩弄數字的生物學家。

設計實驗，這篇文章值得參考：

樣本夠大不夠大？

歡迎光臨粉絲團一起討論：盲眼的尼安德塔石器匠

p值統計顯著偽陽性全基因組關聯分析 GWAS 信心區間 confidence intervals

尼安德塔人

盲眼的尼安德塔石器匠

尼安德塔人發表在痞客邦留言(0) 人氣()

E-mail轉寄

盲眼的尼安德塔石器匠

人類與演化

偽陽性誤判太多，調降p值門檻就好？

歷史上的今天

留言列表

文章分類

長篇大論 (10)

論文掃描 (6)

科學情報 (4)

最新文章

時間與空間的走廊

科學媒體

科學實驗室

科學資源

參觀人氣

文章搜尋

熱門文章

最新留言

誰來我家

文章精選

QR Code

站方公告

活動快報

痞客邦...

新聞交換(RSS)