每日最新頭條.有趣資訊

單因素分析,到底有沒有必要做?

上一篇文章通過一個例子說明,不少人經常用到「先做單因素分析,然後把單因素分析中有統計學意義的變數納入多因素分析」,這種思路在有些情況下未必可靠。

其實這裡關鍵的問題就是:到底有沒有必要做單因素分析?如果做單因素分析,是不是隻把單因素分析中有意義的變數納入多因素分析,而沒有統計學意義的變數就不用納入多因素分析了?

這個問題其實沒有完全統一的答案,不同的統計學家也有自己的想法和觀點,所以本文所提到的觀點,僅是個人見解,有不同意本文觀點的,純屬正常。

我們先把上一篇文章留下的疑問解釋一下,其實這個問題也有不少人問過我,說:有沒有可能單因素分析沒有統計學意義,而多因素分析變得有統計學意義了。我的回答是:有可能。上一篇文章就是這種情況。

那麼,為什麼會出現這種情況?我們來仔細分析一下。

正常情況下,lx變數在單因素和多因素分析中結果差別這麼大,通常都是跟其它變數的影響有關係。所以,我們從4個自變數的相關性入手來看。

如果看一下4個自變數的相關性,你會發現,其實a、b、c這3個變數對lx的影響都不大,相關係數都為-0.1左右(這算不上很大的相關)。然而如果仔細觀察,你會發現另一個有意思的現象:a、b、c這3個變數與lx變數的相關都是負的,相關係數都為負數。

這就能說明一定問題了。儘管a、b、c三個變數每一個對lx變數的影響都不大,然而3個都一起影響,那就有可能產生一定的作用了。

說的通俗一點,由於a、b、c這3個變數對lx變數的影響都是負的,而a、b、c與y的關係又都是正的,這就是說,單因素分析中,當分析lx與y的關係的時候,其實a、b、c這3個變數都扯了二者關係的後腿。

用大家熟悉的一部經典美劇來說明這個意思。我想大家可能都看過《friends》(最經典的美劇,沒有之一),其中第三季第9集中,6個人組隊玩球,最後3個男生一組,三個女生一組。Joey搶到球往前跑的時候,Rachel先跑過去抱住Joey的脖子,以阻止Joey往前跑,這就是扯後腿。

然而三個女生很快發現,僅靠一名女生扯後腿的力量有限,Joey仍在繼續跑,所以Monica和Phoebe繼續各自拽住Rachel的腿往後拉,這時候Joey的速度就明顯慢了。也就是說,三個女生,每個人往後拉Joey的力量都不大,然而三個一起就大多了。

本例的解釋其實跟這個是一個意思。在本例中,a、b、c這3個變數每個對lx變數的扯後腿的作用都不是很大(相關係數都不大),然而三個同時對lx變數有負相關,合起來就有影響了。

所以,當我們看一下偏相關係數(也就是校正了a、b、c這3個變數後,lx變數與y的純相關),就會發現lx與y的相關性(相關係數為0.3511)明顯高於一開始二者的關係(相關係數為0.1912)。

同樣,如果做回歸分析,單因素分析中,lx變數與y的關係如下圖所示。

而校正了a、b、c這3個變數的多因素分析中,lx變數與y的關係則變成了下面的樣子。可以看出,斜率更大了。

當然,這只是本例的特例,實際中未必所有數據都是這樣。所以我一般喜歡說「具體問題具體分析」,不是故弄玄虛,而是真的如此。每個數據都不一樣,沒有辦法說一個統一的、完全標準的分析過程。

也許在有的數據中,「先做單因素分析,然後把單因素分析中有統計學意義的變數納入多因素分析」,這種思路並沒有問題;但在有的數據中,可能就有問題。

那麼什麼情況下有可能會出現:「單因素分析沒有統計學意義,而多因素分析中有統計學意義」這種現象?

其實本例已經給了一個很好的答案,如果其它變數(如a、b、c)與研究變數(如lx)之間是負向關係,而研究變數(如lx)與因變數(如y)之間是正向關係,且其它變數(如a、b、c)與因變數(如y)之間也是正向關係。這時候就很容易出現「單因素分析沒有統計學意義,而多因素分析中有統計學意義」。

實際中到底要不要「先做單因素分析,然後把單因素分析中有統計學意義的變數納入多因素分析」這種思路?我個人的觀點是比較明確的:決不能照搬這種思路。有時會讓你錯失發現數據真相的機會。

其實數據分析本來就不是很容易的,有時我給別人說完一些分析思路,他們會很疑惑:這麼麻煩啊?也許,在很多非統計學專業的人的眼中,統計分析無非就是跑跑軟體,出個結果。現實中確實也有很多人就是這麼做的。然而,真正的統計學家不會這麼做,有些複雜數據有時都得花費十天半月(甚至幾個月都有可能)來考慮。

單因素分析到底有沒有必要做?

看了前面的例子,有的人的世界觀已經徹底崩塌了:原來說好的「先做單因素,單因素分析中有統計學意義的變數再納入多因素分析」這種思路,怎麼就不靈了。我還能相信什麼?到底要不要做單因素分析了?

首先聲明:本文僅代表作者個人觀點,有不同意見純屬正常。

我個人的建議是:單因素分析要做,但是,不能死板地根據單因素分析中P值小於0.1(或0.2、0.3等)而決定把變數納入多因素分析。是否把一個變數納入多因素分析,單因素分析的P值只是一個提示,還需要考慮其它因素。

下面逐一解釋這句話什麼意思。

首先,要做單因素分析。但目的絕不是簡單地為了初篩變數,我認為目的至少有二:

第一,初步探索自變數與因變數的關係,因為不管是線性回歸還是logistic回歸、Poisson回歸等,其本質都是線性模型。不管你的自變數與因變數(或因變數的變換)是不是線性,分析結果只會給出有沒有線性關係。所以必須保證自變數與因變數(或因變數的變換)之間是線性的,而這一點就可以通過單因素分析來實現。單因素分析中可以很方便地顯示每個自變數與因變數(或因變數的變換)之間的大致關係。

雖然很多人都認為圖形過於主觀,但我個人還是非常喜歡圖示的。圖形可以告訴我們很多資訊,不管是散點圖還是其它圖形,既直觀又方便,比單純的P值要好。

第二,如果自變數太多(相對例數而言),單因素分析確實也可以做一些初篩,否則因素太多時,一股腦把所有變數都納入模型執行多因素分析未必現實。比如你有30個變數,但例數只有60例,無論如何不可能直接把30個變數一起納入,否則每個變數的標準誤都會太大,每個變數都不會有統計學意義。

有的人顧問我的時候會說:我這些變數都很重要,都不能刪,都想保留在模型中。但是,如果你的例數不足夠,你的變數再重要,也無法納入模型。我見過太多的理想與現實矛盾的情況,你想的很好,但是例數不夠,必須讓你做出讓步。所以有時單因素分析可以做一些初篩。

但是,有一點一定要注意:單因素分析的初篩決不能只看P值。不是說P值大於0.1(或0.2、0.3等)就直接捨棄了,而應該結合其參數估計值、標準誤以及專業的重要性,綜合來考慮。另外,還需要觀察研究變數與其他變數之間的關係,就像上文例子,如果其它變數與研究變數的關係很不幸的都在一個方向上,那就得仔細看了。這種情況下,什麼事情都有可能發生,一定要謹慎。

總之,因素分析是一件細活,有的人說,我有40多個因素,難道我每個因素都得看一下是否跟因變數(或因變數的變換)是否線性關係嗎?這多麻煩啊!我的回答是:是不是要看,是不是要做的這麼細,取決於你自己。我把如何分析的思路告訴你,但是你是不是按這種思路來做,只能你自己決定。

你當然可以不這麼做,可以把所有變數一股腦兒放到軟體中跑出結果,也可以按「單因素分析P<0.1的變數再納入多因素分析,在軟體中跑出結果」,這都可以出結果。然而結果是否可靠,也許只有天知道。統計軟體是一個雙刃劍,你無論把什麼數據扔進去,它都會給出你一個結果,但它不會告訴你的結果是否準確可靠。

很多人來顧問我問題的時候,往往都希望得到一個很直接的答案,比如:你就告訴我這個變數有沒有意義就行了。可惜的是,往往數據沒有這麼聽話,不一定是像你想像的那麼簡單。就像患者顧問醫生一樣,患者想聽到一個最直接的答案:你就告訴我這是個什麼病(或者,你就告訴我這個病能不能治好)。同樣可惜的是,往往醫生也無法做出這個直接的回答。其實這是一回事。

所以,如果你覺得患者問你「你直接告訴我這是什麼病」這樣的問題讓你無法回答,那你也應該體會到,如果你問一名統計學家「你就告訴我這個變數有沒有意義」這樣的問題,同樣也讓統計學家難以回答。你覺得確診一種疾病很難,同樣,統計學家分析你的數據也不是這麼容易。

對於一份數據的分析,如果你實在拿不準,我的建議是,直接請教統計學家。畢竟他們經驗更為豐富一些,就像一般人也喜歡掛老專家的號一個道理,因為他們經驗多。

我也曾幫助不少人解決過一些問題,比如,他們自己確實分析不出來,但是可能我從其它角度重新分析,或者換種思路重新分析,結果會跟他們原來做的不同。這讓他們很歡欣鼓舞,也覺得好像統計學很神奇,本來沒有意義的,做出有意義結果了。

但其實並非如此,統計學不能無中生有,如果一個變數真的沒有意義,那統計學無論怎麼折騰,它最終也還是沒有意義。為什麼你做的沒有意義,而我做的就有意義。這只是因為原來你的思路有問題,我重新換了思路而已,所以發現了本來你沒有發現的結果。僅此而已。

所以,也不要對統計學期望太高,也不要覺得統計學無用。統計學只是幫你更加客觀地看待數據,更加理智地發現規律,更加有效地利用數據,讓你離真實結果更接近。

更多閱讀

-ykh

關注醫咖會,輕鬆學習統計學~

),拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。


TAG: |
獲得更多的PTT最新消息
按讚加入粉絲團