每日最新頭條.有趣資訊

小扎退學變富豪,為啥我退學就只能被胖揍?

二戰期間,為了降低傷亡率,盟軍試圖對戰鬥機進行加固。在研究了大量返航的戰鬥機之後,研究人員發現飛機的彈痕是這樣分布的。

如果你是決策者,你會選擇將哪裡加固呢?圖片來源:wikipedia.com

海軍分析中心的工作人員認為,飛機的彈孔大多集中在機翼和尾部,於是他們建議將這些受損最嚴重的地方加固。

統計學家亞伯拉罕·沃爾德(Abraham Wald)卻得出一個跟直覺相反的結論。通過計算,他發現參與調查的都是在戰鬥中幸存下來的飛機,它們並未遭受致命的襲擊。 相反,機艙和發動機等看似毫發無傷的地方反而比較危險,因為這些區域一旦被擊中,就會導致飛機失事墜毀。

機艙和發動機沒有彈痕,是因為這裡中彈的飛機都墜毀了。圖片來源:wikipedia.com

事實證明他的建議才是正確的,戰鬥機的傷亡率最終得到了控制。死掉的數據不會開口講話,這被人們稱作“幸存者偏差”。

幸存者偏差

“幸存者偏差”是統計學的一種邏輯謬誤,它是指我們忽略了數據篩選過程的邏輯陷阱,從而得出了一個錯誤的結論。

“好多科技大佬都退過學,所以我也要退學”就是典型的幸存者偏差。事實上,更多同樣退學但事業失敗的人根本沒有被公眾知曉的機會。圖片來源:dazeinfo.com

假設一名高中學校的一個班級在4年中(編注:美國高中有4年)考試成績穩步上升。無論用什麽評價標準,這批學生每一年都比前一年做得更好:平均數、中位數、學生在年級水準的百分比等等。我們能不能以此肯定校長的工作,甚至提名這所學校的長官為“年度最佳校長”呢?

恰恰相反,這些數據值得質疑。如果你有一屋子高矮不齊的人,強迫最矮的那個離開房間也會使整個房間的平均身高上升,但這樣做並不會使任何人的身高變高。這就是幸存者偏差的貓膩,在這種情況下,樣本中去掉了一些觀測數據,那麽對於剩餘數據的分析也勢必會產生變化。

假設我們的校長真不是個好人:他學校裡的學生啥也沒學到,每年都有半數人輟學,沒有任何一名學生實際上考得更好,但這所學校的考試分數反而看上去很漂亮。因為學得最差的學生(也是考試分數最低的學生)最有可能輟學,那麽考試分數的平均分會隨著更多學生輟學而穩步上升。

選擇偏倚

”幸存者偏差”背後更值得深究的問題是:我們如何選擇評估樣本?在進行統計調查特別是抽樣調查時,我們必須確認,接受評估的群體中,每一個成員都有均等的機會入選樣本,否則最終得出的結論就會有偏頗。

樣本的選擇,大有講究。圖片來源:globalinvestigationsreview.com

1936年的美國總統選舉就是個很好的例子。《文學文摘(The Literary Digest)》於事前進行了大規模的民調。他們向讀者郵寄了1,000萬份問卷,回收230萬份。根據讀者的反饋,《文學文摘》預測阿爾夫·蘭登將會以絕對優勢戰勝羅斯福,順利當選總統。結果事實恰好相反,羅斯福成功連任,實力打臉。

這麽大的統計樣本,為什麽還會產生這種誤差呢?其原因就是樣本選擇的失誤,又叫做“選擇偏倚”。回收的230萬份問卷是受訪者的自願選擇,他們對此議題有著強烈的興趣,根本算不上隨機樣本。《文學文摘》雜誌社還通過電話調查的方式對自己的讀者進行了抽樣調查,但在當時,能訂購雜誌、安裝電話的家庭大多很富裕,他們的觀點並不能代表全美民眾。

類似的事情還發生在2016年美國總統大選。當時大多數預測機構都表示希拉裡會獲勝,結果卻出乎所有人的意料。圖片來源:chinadialogue.net

選擇偏倚還有其他很多種形式。在機場做消費者問卷調查很可能造成偏倚,因為坐飛機的人大體上會比一般人更富裕;而在一些貧窮街區做同樣的調查,問卷結果又會偏向另一端。這類調查所共同面對的問題是,收到的反饋都來自那些願意在公共場合接受問卷調查的人,而他們同那些不願意被打擾的人又大不相同。如果你在公共場合問100個人做一份簡短的調查,其中只有60人願意,剩下40個看都不看你一眼就走開。那麽這60個人的數據顯然就有失偏頗。

每項重要的研究背後都離不開好的數據,是它們使分析成為可能。錯誤選用的數據,往往會使我們得出完全相反的結論。如果說統計學家是偵探,那麽數據就是線索。用正確的方法找到好的數據,永遠是偵探心中的第一要務。

知識點數學七年級下

統計調查

作者:Charles Wheelan

來源:Medium,Garbage In, Garbage Out

翻譯:ccyou

編輯:大琳砸

獲得更多的PTT最新消息
按讚加入粉絲團