正苦惱如何構建疾病風險評分工具？別怕，有教程！

我們在前期介紹Framingham Heart Study的文章中《歷經70年，發文3000多篇，致敬如此偉大的研究！》，提到Framingham Heart Study在探討疾病危險因素和構建風險預測模型方面，做出了很大的貢獻。

其中1998年Framingham Heart Study發表了一個經典的冠心病10年風險預測評分工具，該風險函數成為美國國家膽固醇教育計劃（NCEP）成人治療方案（Adult Treatment Panel，ATP）計算冠心病風險的基礎。

該模型不再使用原有的連續變數形式，而是將危險因素進行分層，對每一分層進行量化賦分，最後通過計算總分來對患者進行疾病風險評估，評分工具不僅有助於患者理解，也能夠在臨床中得到較好的推廣應用。

如果說只是單純的構建疾病風險預測模型，相信大家應該都比較熟悉，至少大家也都用過Logistic回歸、Cox回歸等這些常用的回歸模型。但是如何將自己構建的預測模型轉化為風險評分工具，似乎成了一個難題。

今天小咖就以多因素Logistic回歸模型為例，給大家逐步解密，教會大家也能做出這種高大上的疾病評分工具。

研究實例

我們仍以Framingham Heart Study為例來進行說明，研究共納入9443名健康人群，年齡為30-79歲，對研究對象隨訪5年，觀察他們冠心病硬終點的發病情況，包括心肌梗死、死亡。

假定我們要考慮的主要危險因素包括：年齡、性別、收縮壓、吸煙，研究人群各個危險因素的分布情況如下表所示，我們在此研究的基礎上來製作疾病風險評分工具。

步驟

1. 構建多因素Logistic回歸模型

通過構建多因素Logistic回歸模型，將我們主要考慮的危險因素納入到回歸模型中，從而估計各個危險因素的回歸係數β，OR值及其95% CI，回歸結果如下表所示。

2. 將各個危險因素進行分類，並指定每組的參考值Wij

我們按照臨床意義或使用習慣將各個危險因素進行分組，並在每個分組中選擇合適的數值作為參考值Wij，通常選擇組內的中間值作為參考值。

例如在本例中，研究人群的年齡範圍為30-79歲，通常我們按照10歲一個年齡段來進行劃分，將其分為5組，每組選擇中間值為參考值Wij，例如30-39歲這一組的參考值Wij為(30+39) / 2 = 34.5。

本研究中血壓的範圍為78-240mmHg，我們按照高血壓指南的診斷切點來進行劃分，每10mmHg為一組，共分為5組，每組選擇中間值為參考值Wij。但這裡需要注意的是，第一組（<120）和最後一組（≥160）都是半閉合區間，此時應該如何設定Wij呢？

通常我們選擇第1百分位和第99百分位的數值來輔助進行計算，在本研究中收縮壓第1百分位和第99百分位的數值分別為94mmHg和190mmHg，因此第一組的參考值Wij為(94+120) / 2=107，最後一組的參考值Wij為(160+190) / 2 = 175。

對於分類變數，如性別，此時我們可以設定女性為參照，即參考值Wij為0，那麼男性就自然賦值為1，同理，不吸煙設定為0，吸煙為1。

3. 確定各個危險因素的基礎分險參考值WiREF

對於每一個危險因素，我們需要選擇一個合適的分組來作為基礎風險參考值WiREF，在後續構建評分工具時，該組分值將記為0分，危險因素的值高於WiREF時記正分，得分越高則風險越高，相反低於WiREF時記負分。

在本研究中，我們選擇年齡30-39歲、女性、血壓120-129mmHg和不吸煙對應的參考值Wij，作為每個危險因素的基礎風險參考值WiREF。

4. 計算每一個危險因素的分組與基礎風險參考值之間的距離D

結合多因素Logistic回歸模型估計的回歸係數βi，以及危險因素各組的參考值Wij，來計算危險因素的每一分組與基礎風險參考值WiREF之間的距離D，計算公式為D = (Wij-WiREF）*βi

例如在本研究中，年齡的基礎風險參考值WiREF為34.5，年齡在Logistic回歸中對應的回歸係數βi為0.0575，那麼對於70-79歲組，其參考值Wij為74.5，該組與基礎風險參考值的距離即為（74.5-34.5）*0.0575=2.3000。

同理，其他危險因素也按照上述公式計算每個分組到基礎風險參考值的距離D。

5. 設定評分工具中1分對應的常數B

我們需要設定評分工具中每記1分時，對應的各個危險因素變化的常數。例如本例中，如果設定年齡每增加5歲時記為1分，那麼此時常數B = 5*βi = 5*0.0575 = 0.2875。

6. 計算危險因素每個分類對應的分值Pointsij

在第5步確定常數B的基礎上，計算危險因素每一個分類所對應的分值，計算公式為Pointsij = D/B = (Wij-WiREF) * βi /B，最後將計算出來的數值四捨五入取整，即為該組對應的分值。

例如本研究中收縮壓≥160組，其計算的分值為0.8325/0.2875=2.8957，四捨五入取整為3分。

7. 計算總分與風險預測概率的對應表

根據第6步的結果，將每個危險因素的分值相加起來計算總分，理論上每個危險因素取最低值時，可以得到總分最低值為0+0+(-1)+0= -1，同理可得到總分最高值為8+5+3+3=19，因此總分的範圍為：-1~19分。

然後再根據多因素logistic回歸模型的方程，來計算每一分值對應的風險預測概率值，計算公式如下：

以此類推，即可算出總分與風險預測概率的對應表，如下表所示。

至此，一個基於多因素Logistic回歸模型構建疾病風險預測的評分工具就已經做好了，是不是感覺又get了一項高大上的技能呢！雖然看上去步驟有點多，過程有點複雜，但是如果按照小咖講的一步一步做下來，相信這麼聰明的你一定不會被難倒的。

評分工具

與Logistic回歸模型結果比較

風險評分工具已經新鮮出爐，為了進一步驗證它的準確性，我們舉一個實例，來比較一下評分工具與原始Logistic回歸模型預測結果之間的差距。

假設有一位男性患者，75歲，收縮壓150mmHg，否認吸煙，來預測他未來5年冠心病的發生風險。

首先，我們根據評分工具裡各個危險因素的分值，分別記為5、8、2和0分，總分為15分，查表對應的風險概率為12.93%。

然後，我們再根據多因素logistic回歸模型進行一次計算：

可以看出，評分工具與Logistic回歸模型預測結果之間僅僅隻相差2%，足夠滿足疾病風險預測評估的要求，而且應用起來也很直觀和便捷。

本期我們以多因素Logistic回歸模型為例對評分工具進行了介紹，先留給大家慢慢消化一下。往往在很多時候，我們在研究中還應考慮事件發生的時間因素，需要用Cox回歸來構建疾病預測模型，此時又該如何將其轉化為風險評估工具呢？小咖會在後續的內容中來向大家繼續進行講解。

更多閱讀

-ykh

關注醫咖會，提升臨床研究水準~

），拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。

TAG: |