每日最新頭條.有趣資訊

糖尿病診療的大數據分析

摘要:監管並控制糖尿病患者的血糖水準對降低糖尿病的發病率具有重要作用,而現醫院的管理比較隨意,因此十分有必要對現有的醫院收治的病人的糖尿病治療模式進行分析評估。在該文中,我們首先對數據進行了預處理,深處無用屬性、去除缺失數據等,將剩餘的數據作為最終的分析數據集。其次,根據ICD對疾病進行分類,劃分為循環系統疾病、呼吸系統疾病、糖尿病等9類。然後,我們對所有的特徵變數與再次入院進行相關性分析,發現與再次入院率較為相關的特徵有:得病之前的住院次數、診斷次數、得病之前的急診次數、A1Cresult等。最後我們根據所做的研究對於醫院如何降低患者的再次入院率給出了合理的建議。

關鍵詞:再次入院率 ;相關性分析;糖尿病;數據預處理

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)20-0014-02

1 引言

控制住院病人的血糖水準對降低發病率和死亡率具有重要作用,許多醫療機構把嚴格的血糖指標納入重症監護室ICU級別的正式協定。但是,對於大多數非ICU住院病人的接收卻沒有這樣做。事實上,按傳統的方式,住院病人的管理比較隨意,為了提高患者的安全性,有必要對現有的醫院收治的病人的糖尿病治療模式進行分析評估。

數據來自Center for Machine Learning and Intelligent Systems,名為Diabetes 130-US hospitals for years 1999-2008 Data Set的數據。該數據集為美國130家醫院臨床護理10年(1999-2008年)的數據,包含了50個患者的特徵,如就診病人的HbA1C檢測、性別、年齡、種族、出院去處、入院來源、住院天數、診療醫師的專業、初次診斷結果、葡萄糖血清檢測等。

根據這些數據,我們將進行數據預處理,對各種疾病類型進行分組,探究再次入院率對各特徵變數之間的關係,並討論如何降低患者的再次入院率。

2 數據預處理與疾病分類

2.1 數據預處理

題目中所給的數據集合有較大的數據量,對此我們進行了以下幾個方面的篩選:

1)部分屬性缺失率很高

如體重的缺失率鋼彈96.86%,支付方式、診療醫師的專業的缺失率也都達到了39.56%、49.08%。較高的缺失率也從側面表示了這些屬性的重要性較低,在進一步的分析中沒有存在的必要,因此我們選擇對這三列屬性進行刪除。

2) 隻保留病人第一次來醫院看病的記錄

通過對數據的整體觀察,發現在病人編號部分有重複。由於每個病人都對應唯一一個id編號,重複的id表明該病人不止一次在醫院進行就診。為了確保我們所分析的病人都是第一次住院,非首次住院將對再次入院率產生影響,所以對於同一個id編號,我們隻保留第一條數據記錄,對另外的記錄進行刪除。

3) 刪去臨終前的病人記錄

在患者出院去處中,我們發現有部分病人有hospice,即「臨終關懷」(即將去世)。對於即將去世的病人而言,在出院之後及時病情再次惡化,他們也不會再次入院進行治療。因此對這部分數據記錄進行刪除。

4) 去除diag_1為「?」的記錄

diag_1是主要的診斷,所以以此為主要的分類依據,對於該屬性為空的記錄,進行刪除。

經過以上的預處理,我們最終剩下了71054條數據記錄構成了最終的分析數據集。

2.2 疾病類型的分組

?

我們查詢了國際疾病與相關健康問題統計分類(ICD)編碼列表,作為我們的分類依據,結合國際ICD-9編碼與數據集中ICD-9編碼的範圍,我們將數據集中的疾病按表1方式進行分組。其中根據國際ICD-9編碼,780-799代表癥候、徵候及不明情況,對於數據集中出現的該範圍的特定數值進行了查找,並將其歸入相應的類型。

在數據集中給出了3次診斷,其中「diag_1」為主要診斷,因此我們只根據主要診斷給出的診斷值數據按照表1進行分組,於是每個數據點添加了其主要診斷所屬的疾病類型。

3 特徵變數與再次入院率的關係探究

在本節中,我們要分析再次入院率與各特徵變數之間的關係,首先我們需要從眾多的特徵變數中篩選出幾個和再次入院率相關性較大的特徵變數,再對它們進行更深入的分析。

我們用概率論中的協方差和相關係數的計算方法,來計算這些特徵變數和再次入院率之間的相關性,相關係數越大,說明該特徵變數與再次入院率的相關性越大。根據計算,我們發現患者的年齡、住院時長、得病之前的門診次數、得病之前的急診次數、得病之前的住院次數、診斷次數以及HbA1C值都與再次入院率有較大的關係。

其中,得病之前的門診次數、得病之前的急診次數、得病之前的住院次數、診斷次數和再次入院率都呈正相關,即得病前門診次數、急診次數、住院次數及診斷次數越多,再次入院率也越高。從實際情況可以很好地解釋這一現象,經常看病或住院的人自身身體素質相較正常人而言自然會差一些。而看病次數越多,一定程度上也能表示這個人自身所得過病的數量或者種類越多。而在得了糖尿病之後,這類人在自身機能較弱的情況下,很有可能因為糖尿病而引發的併發症再次入院治療。

患者住院的時間越長再次入院的概率越高,在住院時長大於8天之後,入院率就穩定在44%左右。可見患者的住院時長可以側面體現患者的患病程度,但當時長久到一定天數之後,對患者的治療效果相差不大。

年齡與再次入院率也呈明顯的正相關,年齡越大,再次入院率越高。隨著人們年齡的增長,身體免疫力逐漸下降,伴隨著一些疾病的出現,再伴隨著糖尿病的併發症,於是再次入院。

另外,我們還發現HbA1C與再次入院率也有較大關係。我們按照患者的患病類型進行探究。對糖尿病患者而言,HbA1C測定結果量高的,反而再次入院率較低。但呼吸系統疾病患者和消化系統疾病患者卻呈現測定結果量越高,再次入院率越高。可以從側面說明醫院的醫生對於糖尿病患者的HbA1C值關注度很高,但對於呼吸系統疾病患者和消化系統疾病患者卻並未過多關注。因而醫生根據HbA1C值對糖尿病患者進行了相應的治療,使這類糖尿病患者的再次入院率減少。但對於另外兩類疾病,雖然HbA1C值同樣很高,卻未進行相關治療,導致這兩類患者的再次入院率隨著測定結果量的增多而升高。

因此無論是這三類中的哪種疾病,HbA1C的值對於再次入院率都有一定的影響。醫生應提高對HbA1C測試及其測試結果的重視,而非僅限於糖尿病患者。

4 降低再次入院率的探究

根據以上對各特徵變數與再次入院率的研究,我們對於如何降低再次入院率提出了以下建議:

1) HbA1C的檢測應當普及,對糖尿病患者而言,測量結果越高反而入院率較低,可以作為再次入院率的另一預測指標。

2) 對不同年齡段的患者給予不同的治療策略,對中老年人提高重視。

3) 對與治療糖尿病相關的主要藥物進行深入的研究,明確每種藥物的作用,以及不同的服藥量對患者會產生怎樣的效果。明確區分對患者治療效果產生正影響和負影響的藥物,以提高對患者的治療效果。

4) 對於看病經歷較為豐富的患者,可以給予適當提醒,注意日常的身體素質提升,提早預防糖尿病及其併發症的產生。

參考文獻:

[1] 謝式千,潘承毅.概率論與數理統計[M]. 北京:高等教育出版社,2008(6):119,168.

[2] 曹叔彥.CLIQUE 網格聚類演算法在醫學太空數據中的應用[D].山西:山西醫科大學,2015(5).

[3] 陳瀲.面向糖尿病的臨床大數據分析研究與應用[D].上海:東華大學,2018(4).

[4] 趙曉華.基於大數據下 2 型糖尿病及併發症患者就診資訊的挖掘研究[D].廣州:廣州中醫藥大學,2016(4).

[5] 何禹德.基於數據挖掘技術的糖尿病臨床數據分析[D].長春:長春工業大學,2016(4).


獲得更多的PTT最新消息
按讚加入粉絲團