每日最新頭條.有趣資訊

前沿 | AI系統肺癌分型準確率達97%,還能識別六大肺癌常見突變基因

應該每個醫學生都經歷過看病理切片的痛苦吧,眯眼盯著顯微鏡好幾分鐘「找不同」真是一大折磨,可是不經歷這千萬次的折磨,面對某些長得特別像的腫瘤咱們就得麻爪了。比如說同屬非小細胞肺癌的肺腺癌(LUAD)和鱗狀細胞癌(LUSC),雖然兄弟倆長得很像,但是在臨床上治療選擇卻大相徑庭。

幾十年來,醫生們就是靠著訓練有素的火眼金睛來為患者尋找診斷依據的,不過或許很快醫生們就能夠從這種乏味的重複勞動中解脫出來了。

今天發表在《自然醫學》的一項新研究帶來了紐約大學研究者的最新成果。研究者們利用大量數字化病理切片影像重新訓練了谷歌的深度學習演算法Inception V3,AI識別癌組織和正常組織準確率達到99%,區分腺癌和鱗癌的準確率達到97%,遠超前人研究![1]

更令人驚訝的是,該演算法能夠從切片影像中識別肺癌常見六大基因突變,包括已有靶向療法的EGFR突變,準確率能達到73%-86%。目前在單GPU上檢測一個數字切片的時間在20秒左右,研究者認為,更新的技術加上多GPU並行處理,每個切片的檢測時間可以只有幾秒鐘

真·火眼金睛啊!

通訊作者Aristotelis Tsirigos (左),Narges Razavian(右)

無論發病率還是死亡率,肺癌都是我國癌症中的頭號殺手,每年新發病例達到80萬,死亡人數則接近70萬。在佔據了絕大多數的非小細胞肺癌中,肺腺癌(LUAD)和肺鱗狀細胞癌(LUSC)是兩個主要的亞型[1],而它們二者的現有治療方案,從常規化療到最新的靶向治療,都是截然不同的[2],所以準確區分亞型就成了治療的一大關鍵。

病理組織切片是臨床上常用的分型手段。不過一是在幾十倍放大顯微鏡下,數據量巨大,二是癌細胞形態也未必有很明顯的區別能夠一下看出來,怎麼能夠解放醫生的雙眼就很值得一究了。

此前有研究者利用隨機森林模型開發了病理切片的識別演算法,區分腫瘤組織和正常組織的準確率達到85%,亞型分型準確率則達到了75%[2];另一項研究則實現了83%的分型準確率[3]。

紐約大學的研究者們選擇了谷歌的一種開源演算法Inception V3[4],這是一種常用於分析視覺影像的卷積神經網路(CNNs),在谷歌手裡,它能夠識別一千種以上的對象,它也已經成功被用於檢測皮膚癌症[5]和糖尿病視網膜病變[6]了。

那麼怎麼讓AI認識腫瘤組織和正常組織呢?給它喂知識!

研究者從基因組數據共享(GDC)資料庫中獲得了1634個數字化病理切片影像,其中包括1176個肺部腫瘤組織和459個正常肺組織,它們又被分為三組,分別用來訓練、驗證和檢測。

考慮到整個數字切片數據量很大,沒法直接用來分析,研究者們還把每個切片又進一步分為512×512像素的碎片影像,根據切片大小要分幾十到幾千份不等,平均每個切片分為約500個碎片。

訓練過程

不得不說機器真是聰明,吃了這些知識之後它一下就成了病理專家,區分腫瘤組織和正常組織的準確率達到99%,跟真人專家達到一個水準在區分正常組織、鱗癌組織和腺癌組織上,準確率則達到了96.8%

研究者請了三位病理學家來和AI較量,兩位專攻胸外,一位是解剖學專家。總的來說,三位歷經千錘百鍊的專家,水準和AI是基本一致的。那些AI分類錯誤的切片,有50%至少有一名專家也看錯了,說明腺癌和鱗癌的區分確實很困難。此外,專家看錯的83%(45/54)切片都能夠被AI正確分類,說明這個系統還是很有作為二次校正使用的潛力的。

紅色的腺癌、藍色的鱗癌和灰色的正常組織

除了準確,AI的另一個優點就是快。一般情況下,醫生看一個切片怎麼也要幾分鐘,病理組織特別複雜的情況下,或許還用動用免疫組化分析,那診斷時間就要超過24小時了。

AI就快得多了。目前研究者使用單個Tesla K20m GPU進行分析,平均每個數字切片分為500個碎片,分析只要大概20秒,如果採用多GPU並行的方式運行,差不多幾秒鐘就能出結果了!目前最大的障礙反而在掃描系統上,放大20倍的切片掃描需要2-2.5分鐘,不過FDA去年才批準了最新的超高速數字化病理學掃描器[7],相信這也不會是什麼難闖的關。

研究者還在來自紐約大學的獨立資料庫中進行了檢測,AI仍舊能夠在83%-97%的情況下正確分型。考慮到紐約大學保存的腫瘤樣本純度遠遠不如GDC的樣本,其中含有更多的炎症、血管、血凝塊、壞死區域等「噪點」,樣本保存方式也不太一樣,研究者認為,只要數據量上來了,準確率也會隨之提升

在冷凍切片、FFPE樣本和活組織樣本中,準確度都不錯

接下來,研究者準備嘗試訓練AI從病理切片中「看」出突變,這可是多高明的醫生都做不到的!

為了保證足夠的樣本量,研究者隻選擇了突變率高於10%的基因和腺癌樣本,總共納入了320個切片、212000個碎片用於訓練和驗證,62個切片、44000個碎片用於測試。AI猛學一頓之後,果然就能夠認出STK11、EGFR、FAT1、SETBP1、KRAS、TP53等六個基因在肺癌中的常見突變了,準確率從73%到86%不等!

而且從數據來看,面對多種類型的EGFR突變,免疫組化分析(IHC)只能檢測到最常見的兩種p.L858R和p.E746_A750del,AI還能夠檢測到更多的突變和缺失,例如p.G719A,p.L861Q 和 p.E709_T710delinsD 。

就像我們前面說過的,EGFR已經有了相應的靶向治療方案STK11存在於15-30%非小細胞肺癌中,也是一個潛在治療靶點[8,9];其他基因的突變情況也都具有一定的預後意義,與腫瘤的耐葯、侵襲性等特性有關。

具體的準確率數據

與亞型檢測一致的是,突變檢測在獨立樣本中的準確度也略有降低,而且幅度和亞型檢測相似,研究者認為這也是由樣本製備帶來的差異,可以通過大數據訓練來提高。

不過研究者還不知道AI到底是怎麼從切片中判斷出突變的,只能猜測突變會帶來極其微小的、人類無法觀察到的變化。這就是機器學習的「黑匣子」問題了,有人覺得我不需要知道為啥,好用就行唄,也有反對的研究者提出,如果你不知道為啥,又怎麼能夠百分百確定呢。

這就是研究者們下一步要做的事情了。接下來的幾個月中,研究者將使用更多不同來源的數據訓練AI,並積極考慮商業化以便早日投入臨床。

想像一下,現在腫瘤測序還需要幾天到幾周不等,考慮到時間和成本,還沒法納入標準治療流程。而這項技術如果真的落現,那麼只要病理切片掃一掃,或許就能夠得到一項可行的治療方案,豈不是美哉!

AI還能給出突變率

當然了,研究現在還是在一個比較基礎的階段,斯坦福大學癌症研究所研究者Daniel Rubin就表示,說這項技術能夠取代目前的診斷方法還為時尚早,AI還需要更多的驗證工作,不過這項研究確實讓我們看到了人類和電腦合作的未來,也說明病理影像中蘊含的資訊量比我們現在能夠利用的還要多得多[10]。

本文的通訊作者Aristotelis Tsirigos也在採訪中表示,AI能夠通過病理切片診斷肺癌亞型,還不意味著很快就能代替醫生的工作,但是目前來說,AI已經可以幫助醫生減少讀片錯誤了[11]。

希望未來這些基礎工作能夠都交給機器來做,真正解放醫生去處理更多更重要的臨床決斷。

註:文中提到的 谷歌演算法是開源的。研究者認為這個演算法對任何腫瘤都是有效的,感興趣的讀者可以前往以下網址查看。

網址↓

參考資料:

[1]Coudray N, Moreira A L, Sakellaropoulos T, et al. Classification and Mutation Prediction from Non-Small Cell Lung Cancer Histopathology Images using Deep Learning[J]. bioRxiv, 2017.

[2] Yu, K.-H. et al. Predicting non–small cell lung cancer prognosis by fully automated microscopic pathology image features. Nat. Commun. 7, 12474 (2016).

[3] Khosravi, P., Kazemi, E., Imielinski, M., Elemento, O. & Hajirasouliha, I. Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images. EBioMedicine 27, 317–328 (2018).

[4] Szegedy, C., Vanhoucke, V., Iofe, S., Shlens, J. & Wojna, Z. Rethinking the Inception Architecture for Computer Vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2818–2826 (Boston, MA, USA, 2015).

[5]Esteva, A. et al. Dermatologist-level classifcation of skin cancer with deep neural networks. Nature 542, 115–118 (2017).

[6]Gulshan, V. et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. J. Am. Med. Assoc. 316, 2402–2410 (2016).

[7]Abels, E. & Pantanowitz, L. Current state of the regulatory trajectory for whole slide imaging devices in the USA. J. Pathol. Inform. 8, 23 (2017).

[8]Sanchez-Cespedes, M. et al. Inactivation of LKB1/STK11 is a common event in adenocarcinomas of the lung. Cancer Res. 62, 3659–3662 (2002).

[9]Shackelford, D. B. et al. LKB1 inactivation dictates therapeutic response of non–small cell lung cancer to the metabolism drug phenformin. Cancer Cell 23, 143–158 (2013).

[10]https://www.wired.com/story/google-ai-tool-identifies-a-tumors-mutations-from-an-image/

[11]https://medicalresearch.com/cancer-_-oncology/lung-cancer/artificial-intelligence-can-reliably-diagnosis-specific-types-of-lung-cancer/44583/


獲得更多的PTT最新消息
按讚加入粉絲團