每日最新頭條.有趣資訊

美國高校開源迄今為止最大新冠肺炎CT數據集

新智元報導

編輯:元子、白峰

胸部計算機斷層掃描(CT)圖像在對新冠肺炎(COVID-19)提供準確、快速、廉價的篩查和檢測方面很有前景。

在本文中,研究者構建了一個開源的COVID-CT數據集,其中包含275個COVID-19檢測呈陽性的CT圖像,有助於使用深度學習方法分析病人的CT圖像並預測其是否患有新冠的相關研究和發展。

研究者在該數據集上訓練了一個深度卷積神經網絡,F1值達到0.85,這個結果達到了研究團隊的期待,但仍需進一步改進。

相關數據和代碼:

https://github.com/UCSD-AI4H/COVID-CT

核酸檢測的最大問題:速度慢且稀缺,追不上新冠肺炎的傳播速度

截至2020年3月30日,在全世界範圍內已有775306人感染新冠肺炎,37083人死亡。對此疾病檢測的低效和缺乏成為控制其傳播的主要障礙。

目前的檢測主要基於逆轉錄聚合酶鏈反應(RT-PCR),需要4到6個小時才能獲得結果。與新冠肺炎可怕的傳播速度相比,這遠不夠快。除了效率低下之外,RT-PCR檢測試劑盒也非常短缺。

這促使研究團隊去研究替代的檢測方式。這些方式可能更快,比RT-PCR便宜,更容易獲得,但與RT-PCR一樣準確。在眾多可能性中,研究團隊對CT圖像尤其感興趣。

有幾篇著作研究了CT圖像在篩選和檢測新冠肺炎時的效果,結果鼓舞人心。然而,出於對隱私的保護,這些研究中所使用的CT圖像並不會公之於眾,這極大地阻礙了基於CT圖像的精準檢測新冠肺炎先進人工智能方法的研發。

構建COVID-CT數據集,訓練深度學習模型診斷新冠肺炎

為了解決這個問題,研究團隊構建了一個COVID-CT數據集,其中包含275個新冠肺炎檢測呈陽性的CT圖像,並向公眾開放,以助於基於CT圖像的新冠肺炎檢測的研發。

研究團隊從760個關於新冠肺炎的medRxiv和bioRxiv預印本中提取了 CT圖像,並通過閱讀這些圖像的標題人工篩選出具有新冠肺炎臨床病症的圖像。基於183個新冠肺炎 CT圖像和146個非新冠肺炎 CT圖像,研究團隊訓練了一個深度學習模型,以預測一個CT圖像是否呈新冠肺炎陽性。

在35個新冠肺炎 CT圖像和34個非新冠肺炎 CT圖像上進行了測試,研究團隊的模型F1值為0.85。結果表明,CT掃描有望用於篩選和檢測新冠肺炎,然而還需要更先進的方法來進一步提高準確性。

確診新冠肺炎的患者入院時的CT圖像。

A,2020年2月2日,一名39歲男性的胸部CT掃描結果,顯示雙側毛玻璃混濁。

B,2020年2月6日,一名45歲男性的胸部CT掃描結果,顯示雙側毛玻璃混濁。

C,2020年1月27日,一名48歲男性(在治療後第9天出院)的胸部CT掃描結果,顯示斑片狀陰影。

D,2020年1月23日,一名34歲男性(在治療後第11天出院)的胸部CT掃描結果,顯示斑片狀陰影。

圖1:對於包含多個CT子圖像的圖像,研究團隊將其手動拆分為單個CT圖像。

如何創建數據集

在本節中,研究團隊描述了如何構建COVID-CT數據集。研究團隊首先收集了760個於1月19日 至3月25日期間在medRxiv1和bioRxiv2上發布的的關於新冠肺炎的預印本。

這些預印本中有許多報告了新冠患者病例並且其中一些展示了患者的CT圖像。

這些 CT圖像附有描述其臨床病症的標題。研究團隊使用了PyMuPDF3提取預印本PDF文件的底層結構信息並定位到所有嵌入的圖表。這些圖表的質量(包括分辨率,大小等)大都保存完好。

根據結構信息,研究團隊還識別出所有圖表的標題。基於提取的圖表和標題,研究團隊首先手動選出所有CT掃描圖像。

然後對於每個CT圖像,閱讀其對應的標題從而判斷它對新冠肺炎是否呈陽性。如果無法通過標題判斷,則在預印本中找到分析此圖的文字以做出決定。對於包含多個CT子圖像的圖像,研究團隊將其手動拆分為單個CT圖像,如圖1所示。

最後,研究團隊獲得了27個CT掃描圖像,標記為新冠肺炎陽性。這些圖像大小不同,最小,平均和最大高度分別為153、491和1853;最小,平均和最大寬度分別為124、383和1485。這些掃描來自143例患者。圖2 顯示了新冠肺炎CT掃描圖像的一些示例。

圖2:新冠肺炎陽性的CT掃描圖像示例

兩種方式:遷移學習和數據擴充

研究團隊基於這個數據集開發了一個基線方法,希望有興趣的學者可以對其進行基準測試。

儘管研究團隊所使用的關於新冠肺炎的CT圖像數據集是目前最大的公開可使用的CT圖像數據集,然而它依舊較難達到訓練模型所需的數據量。

因為在如此小的數據集上訓練深度學習模型十分容易導致過度擬合:模型在訓練數據上表現良好,但是在測試數據上泛化不理想。因此,研究團隊採用了兩種不同的方法來解決這個問題:遷移學習和數據擴充。

其中,遷移學習的目的是利用來自相關領域的大量數據來輔助模型的訓練與學習。具體來說,研究團隊使用大量的胸部X光圖像來預先訓練一個深度卷積神經網絡,然後在COVID-CT數據集上對訓練好的網絡進行微調。

數據擴充的目的是組合近似正確的圖像-標簽組,例如,在大多陣列合的圖像標簽組中,標簽是對圖像的正確注釋。

遷移學習

為了解決訓練數據不足的問題,研究團隊採用了遷移學習的方法。具體來講,研究團隊使用NIH發布的ChestX-ray14 數據集來預訓練DenseNet,然後在COVID-CT數據集上對預訓練後的DenseNet進行微調。

數據擴充

另一種解決數據不足的方法是數據擴充:即從有限的訓練數據中,創建新的圖像-標簽組,並將合成後的組添加到原本的訓練集中。在創建新的組時,研究團隊採用了隨機仿射變換、隨機裁剪和翻轉來擴充每個訓練圖像。隨機仿射變換包括平移和旋轉(角度依次為5,15,25)。

實驗設計以及結果

研究團隊收集了195個檢測新冠肺炎呈陰性的CT掃描數據,來訓練一個二分類模型用於預測一個CT圖像是新冠陽性還是陰性。

其中,研究團隊根據患者數據將其分為訓練集,檢驗集和測試集,圖表1總結了每個數據集中新冠陽性和新冠陰性圖像的數量,每個CT圖像的大小都調整為224*224,並通過驗證集對超參數進行調優。

再者,通過使用學習率為0.0001,餘弦調度和最小批處理大小為4的Adam,研究團隊對網絡中的權重參數進行了優化。最後,研究團隊使用五個指標來評估研究團隊的方法:(1)準確性; (2)精度; (3)召回率; (4)F1指數; (5)ROC曲線面積(AUC)。對於這些指標,越高越好。

上圖展示了這個基線方法的準確度、精密度、召回率、F1指數和AUC。儘管精度較高,然而召回率的結果並不令人滿意,因此,需要使用更先進的方法來提高召回率。

總結

研究團隊建立了一個關於新冠肺炎的公開CT掃描數據集,來促進通過讀取CT圖像進而篩選和檢測新冠肺炎患者的AI技術的發展。

此數據集包含275個CT掃描結果為陽性的新冠肺炎患者的CT圖像。

研究團隊使用該數據集訓練了一個深度學習模型,並獲得了0.85的F1值。下一步,研究團隊將繼續改進方法以達到更好的精度。

論文鏈接:

https://arxiv.org/abs/2003.13865

獲得更多的PTT最新消息
按讚加入粉絲團