被Nature科學家封殺的P值，到底有什麽意義？

大數據文摘出品

編譯：武帥、寧靜

我們在日常生活中做出決定時，總會在心裡提前打個“小算盤“——估算一下概率值P，研究者做某項檢測，根據概率值P，得出最終的結果；資本家做投資，根據以往數據的統計分布，估算P值，得出最終的決策等等。P值在潛移默化地影響著我們的生活，那麽有沒有想過我們所依賴的P值到底可靠嗎？

P值的表面意義是，當原假設為真時，檢驗統計量出現某不應該值所需的概率；而其實際意義則是，只需多小的概率就能出現拒絕原假設的檢驗統計值。

Nature上的統計學家早就發現，P值本身無法提供支持相關模式或假說之證據，P值可能給我們每個人都上演了一場“楚門的世界”，先附上Nature鏈接，看看他們怎麽說。

Nature鏈接：

P值不可靠？

發布這篇文章的三位統計學家，分別是瑞士巴塞爾大學的動物學教授Valentin Amrhein，加州大學洛杉磯分校的流行病學的統計學教授Sander Greenland，伊利諾伊州埃文斯頓西北大學的統計學方法學家和行銷學教授Blake McShane。

他們提出：“我們永遠不應該僅僅因為P值大於0.05之類的閾值而得出“沒有差異”或“沒有關聯” ，或者等價，因為置信區間包括零。我們也不應該斷定兩項研究之間存在衝突，因為一項研究結果具有統計學意義，另一項則沒有。這些錯誤會浪費研究工作並誤導政策決策。"

（注：α顯著性水準，是接受或拒絕原假設的概率分界點，如果p

同時，文章指出，當區間估計包括嚴重的風險增加時，得出結論認為統計上不顯著的結果“無關聯”是荒謬的。聲稱這些結果與顯示相同觀察效果的早期結果形成對比同樣荒謬。然而，這些常見的做法表明，依賴統計顯著性閾值可能會誤導我們。（參見下圖）

這些錯誤以及類似的錯誤普遍存在，對數百篇文章的調查發現，統計上不顯著的結果被解釋為“沒有差異”或“沒有影響”的約有一半。

這個發現說明，我們所看到的文獻，都是所謂通過了顯著性檢驗的部分，或者說都是符合研究者意圖的部分，而對於那些沒有通過檢驗、不符合研究者意圖的研究到底是個什麽情況，我們就不得而知了。

例如研究者為了使研究結果符合自身意圖，事先通過樣本選擇、條件控制等手段對實驗設計進行了優化，選擇性地隻報告符合意圖的變量，甚至選擇性地刪除、補充或修改數據，選擇性地擴大樣本容量等等。顯然，這種為了發表文章而人為地達到p

那麽P值的真正含義是什麽呢？

或許，數據科學家Admond Lee會給我們答案，下文是他對於P值的探索經歷，可隨文摘菌一探究竟。（Admond Lee是知名的數據科學家和顧問，憑借其在數據科學和行業知識方面的極強的專業素養，幫助那些初創公司的創始人和各公司利用數據解決他們遇到的問題）

探索P值的真正含義

猶記得當我作為暑期學生在歐洲核子研究中心進行第一次海外實習時（注：歐洲核子研究中心，法語為Conseil Européenn pour la Recherche Nucléaire, 簡稱CERN，位於瑞士日內瓦西部接壤法國的邊境，是世界上最大的粒子物理學實驗室，同時也是萬維網的發祥地。最近以探測到“上帝粒子”—希格斯玻色子（Higgs boson）而為大眾所熟知），那時候大多數人還在談論著希格斯玻色子的發現，即使已經確認希格斯玻色子的發現滿足5個標準差閾值。（即P值為0.0000003）

然而，那時候我對p值、假設檢驗甚至統計顯著性都一無所知。接下來的事你猜對了。我用谷歌搜索了p-value這個詞，看了維基百科後我卻更困惑了…

在統計學的假設檢驗中，對一個給定的統計模型來說，p值或概率值是一個特定的概率，即當原假設為真時，統計結果（例如兩個對照組中樣本均值差的絕對值）不小於實際觀測值的概率。

——維基百科

所以P值的真正含義是什麽呢？到了現在，尤其是當我進入數據科學領域之後，我才慢慢理解了p值的含義，以及它是如何在某些實驗成為決策制定工具的一部分的。

因此，我決定講清楚p值是什麽，以及如何將它們用於假設檢驗，以期有助於你更加直觀透徹地理解p值，顯然我們不能跳過對其他相關概念和p值定義的基本理解，但我保證會以一種直觀的方式進行解釋，而不是直接向你扔去一堆技術術語。

為你提供從構建假設檢驗到理解P值，我將從以下四個方面解釋我們的決策過程的全流程，我“牆裂”建議你仔細地閱讀所有內容，從而對P值有一個詳細的理解：

假設檢驗

正態分布

什麽是p值？

統計顯著性

假設檢驗

假設檢驗

在討論P值的含義之前，讓我們先理解下假設檢驗吧。P值是用於確定我們結果的統計顯著性的，而我們的最終目標就是要確定我們結果的統計顯著性。

統計顯著性是建立在下面這三個簡單的概念上的：

假設檢驗

正態分布

P值

假設檢驗是用來檢驗利用樣本數據所得到的原假設（null hypothesis，也稱零假設，虛無假設）是否符合總體特徵。備擇假設（alternative hypothesis，也稱對立假設）則是當原假設被認為是錯誤的時候你需要接受的假設。

換句話說，我們首先要建立原假設，然後用樣本數據檢驗原假設是否成立。如果不成立，那我們就接受備擇假設。就這麽簡單。

為了判斷原假設是否成立，我們需要用P值來衡量它的統計顯著性。如果數據更傾向於支持備擇假設，那我們就拒絕原假設，接受備擇假設。這將在後面的部分中進一步解釋。

讓我們用一個例子來加深對概念的理解，這個例子在之後介紹其它概念時也會用到。

示例：假設一家披薩店聲稱他們的配送時間不多於30分鐘，但你覺得他在說謊。於是你隨機抽取了一些配送時間，然後用假設檢驗的方法來驗證你的觀點：

原假設—平均配送時間不多於30分鐘

備擇假設—平均配送時間大於30分鐘

我們需要確定的是樣本數據更傾向於支持哪一個假設。因為我們隻關心平均配送時間是否大於30分鐘，所以我們這裡使用單側檢驗。因為我們只想知道配送時間大於30分鐘的可能性，所以忽略配送時間不大於30分鐘這一方面的可能性。換句話說，我們只想知道披薩店是否撒謊了。

假設檢驗的常用方法之一是Z檢驗。這裡我們只想知道結果的含義，所以對於該方法的底層理論就不做詳細介紹了。

正態分布

均值為μ、標準差為σ的正態分布

正態分布是一個用來描述數據分布特徵的概率密度函數，正態分布有兩個參數-平均值μ和標準差σ，平均值描述的是數據分布的集中趨勢，它決定了正態分布的峰值位置。標準差描述的是數據分布的離中趨勢，它決定了這些值與平均值的距離。

正態分布通常與68-95-99.7法則（即3σ法則）聯繫在一起。（如上圖所示）

68%的數據在平均值的1個標準差內

95%的數據在平均值的2個標準差內

99.7%的數據在平均值的3個標準差內

還記得我在開頭談到希格斯玻色子的發現時，提到的5個標準差的閾值嗎（"five sigma”threshold）？

5σ是指99.9999426696856%的數據都能夠證實確實發現了希格斯玻色子。這是一個嚴格設置的閾值，以避免任何潛在的錯誤信號。

哇，好酷啊！現在你可能想知道，“那如何將正態分布應用到以前所說的假設檢驗中去呢？”

因為我們用Z檢驗來做假設檢驗，那我們就要先計算Z得分（Z-scores）。Z得分是指一個數據點離平均值有多少個標準差的距離。在這個例子中，每個數據點就是我們收集的披薩配送時間。

計算每個數據點的Z得分的公式

注意，當我們計算好了每個披薩配送時間的Z得分、並且繪製了如下的標準正態分布曲線圖後，x軸上的部門就由分鐘變成了標準差，這是因為我們通過將數據減去平均值後再除以標準差，從而對數據做了標準化處理（見上方公式）。

觀察標準正態分布曲線圖很有用，因為我們可以將測試結果和經過標準化處理的“正常”總體進行比較。尤其是變量的量綱不同時，標準化處理就十分有必要了。

Z得分的標準正態分布

Z得分可以告訴我們整體數據相對於平均值的位置。

我很喜歡Will Koehrsen的說法——Z得分越高或是越低，結果就越不可能是偶然發生的，結果也就越有意義，但是，Z得分究竟為多少時，才能確保我們的結果是有意義並且可以量化的呢？

敲黑板，劃重點，這時候就需要用到我們之前談到的P值了。通過和預先設置的顯著性水準（也稱為）進行比較，我們就可以判定結果是否具有統計顯著性。

什麽是P值？

Cassie Kozyrkov對p值的精彩解釋

終於說到了P值！之前的那些內容只是一個鋪墊，現在有請我們的主角—P值登場！但是，為了理解這個神秘的p值，以及它是如何應用到假設檢驗中去的，你們還是不能把先前說到的那些一股腦兒地還給我。

如果你還記得上面的內容，那麽恭喜你，接下來你讀到的會是這篇文章中最精彩的部分。這裡，我們不用維基百科所給出的關於P值的定義，而是用我們之前提到過的披薩配送時間！

回想一下，我們曾為了檢驗平均配送時間是否大於30分鐘，而隨機抽取了一些披薩配送時間。如果最終結果支持披薩店的說法（即平均配送時間不多於30分鐘），我們就接受原假設；否則，就拒絕它。

在這裡p值就派上用場了：我手頭這些數據足以說明披薩配送時間不多於三十分鐘，即原假設是正確的嗎？而p值正是用概率回答了這一問題。p值越小，證據看起來就越無力。相應地，原假設看起來就越荒謬。當我們認為原假設過於荒謬時應該怎麽辦呢？當然是拒絕它，轉投備擇假設的懷抱啦！如果p值小於一個預先設置的顯著性水準（一般也稱為α值，我叫它荒謬閾值——不要問我為什麽，我只是覺得這樣更容易理解），就拒絕原假設。

現在我們終於理解p值的意義了。讓我們趁熱打鐵，應用到我們的例子中去吧。

披薩配送時間中的p值：既然我們已經收集了一些樣本時間，就可以計算一番了。我們發現，平均配送時間延長了10分鐘，相應的p值為0.03。這意味著，由於隨機噪聲的干擾，我們有3%的可能性觀測到平均配送時間至少延長了十分鐘。p值越低，結果就越有意義，它由噪聲引起偏差的可能性就越小。

在我們的例子中，大多數人對p值都有一個常見的誤解：p值為0.03意味著結果中的3%情況是偶然出現的。這個想法是錯誤的。人們往往想得到一個明確答案（包括我），也正是因為這點，怎樣解釋p值困惑了我很長時間。

p值說明不了任何事。它僅僅是以預期比較為基礎的一種方法，幫助我們做出一個相對合理的決策。

—— Cassie Kozyrkov

下面是如何用0.03的p值來幫助我們做出合理決策的方法：

想像一下，我們現在生活在一個披薩平均配送時間不多於30分鐘的世界，在分析了樣本數據之後，p值為0.03，低於顯著性水準0.05（假定我們預設了該顯著性水準），那麽我們就可以說這個結果具有統計顯著性。我們堅信披薩店是不會欺騙我們的。可是，當具有統計顯著性的結果告訴我們事實並不是這樣時，我們就需要考慮下我們最初的信念是否還有意義。那我們又該怎麽做呢？首先，我們要想盡一切辦法來維護原假設。但是隨著披薩店得到的差評越來越多，並且還經常為不及時的配送尋找糟糕的借口，以致於我們這些友軍也覺得繼續為披薩店進行辯護是十分荒謬的，因此，我們決定拒絕原假設！最後，我們做出了一項合理決策，就是再也不在這家店買披薩了。你應該早已意識到了...根據我們的例子來看，p值不能用於證明任何東西。

我認為，p值就是當結果具有統計顯著性時，一個用來挑戰我們初始信念（原假設）的工具。當我們覺得初始信念十分荒謬那一刻（假設p值顯示結果是統計顯著性的），我們就決定拋棄它（拒絕原假設），並做出一個合理的決定了。

統計顯著性

最後，我們將此前提到的所有內容放在一起，並檢測結果是否具有統計顯著性，只有p值是不夠的，我們還需要設置一個閾值（又叫做顯著性水準—α）。每次實驗之前都應該預先設置好α以防偏差。如果觀察到的p值小於α值，那麽我們就認為結果具有統計顯著性。通常我們將α值設定為0.05或0.01（這個值的設定取決於你所要研究的問題）。

如前所述，假設實驗前我們就把α值設定為0.05，因為p值為0.03，低於α值，所以我們認為所得到的結果具有統計顯著性。

為了方便參考，下面列出整個實驗的基本步驟：

陳述原假設

陳述備擇假設

確定要使用的α值

找到與你的α水準相關聯的Z得分

使用該公式查找測試統計信息

如果檢驗統計量的值小於α水準的Z得分（或者p值小於α值），就拒絕原假設。否則，接受原假設。

步驟5中用來計算測試數據的公式

對於P值的思考

不可否認的是，p值本來就讓很多人困惑不已。作為一名數據科學家，Admond Lee也是花了很長時間才真正理解了p值的含義以及如何將它應用到決策過程中去。但是不要過度依賴p值，因為它只能幫助到我們整個決策中的一小部分而已。