AI智能機器人從患者數據中「學習」，使癌症治療毒性降低

麻省理工學院的研究人員正在採用新穎的機器學習技術，通過減少毒性化療和放射治療劑量來改善患者的生活品質，膠質母細胞瘤是最具攻擊性的腦癌形式。

膠質母細胞瘤是一種出現在腦或脊髓中的惡性腫瘤，成人預後不超過五年。患者必須忍受放射治療和每月服用多種藥物的組合。醫療專業人員通常施用最大安全藥物劑量以儘可能地縮小腫瘤。但這些強效藥物仍會對患者造成虛弱的副作用。

在下周於斯坦福大學舉行的2018年機器學習醫療保健會議上發表的一篇論文中，麻省理工學院媒體實驗室的研究人員詳細介紹了一種可以使給藥方案毒性降低但仍然有效的模型。該模型由「自學」機器學習技術提供支持，著眼於目前使用的治療方案，並反覆調整劑量。最終，它找到了一個最佳的治療計劃，其最低可能的劑量和劑量頻率仍應將腫瘤大小降低到與傳統治療方案相當的程度。

在50名患者的模擬試驗中，機器學習模型設計了治療周期，將效力降低到幾乎所有劑量的四分之一或一半，同時保持相同的腫瘤縮小潛力。很多時候，它完全忽略了劑量，每年隻安排兩次管理而不是每月。

「我們保留了目標，我們必須通過減少腫瘤大小來幫助患者，但同時，我們希望確保生活品質 - 劑量毒性 - 不會導致壓倒性疾病和有害副作用，「媒體實驗室的首席研究員Pratik Shah說，他負責監督這項研究。

該論文的第一作者是媒體實驗室研究員Gregory Yauney。

獎勵好的選擇

研究人員的模型使用了一種稱為強化學習（RL）的技術，這是一種受行為心理學啟發的方法，其中模型學會偏向某些導致期望結果的行為。

該技術包括人工智慧「代理」，其在不可預測的複雜環境中完成「動作」以達到期望的「結果」。每當它完成一個動作時，代理就會收到「獎勵」或「懲罰」，具體取決於該動作是否適用於結果。然後，代理相應地調整其動作以實現該結果。

獎勵和處罰基本上是正數和負數，比如+1或-1。它們的值因所採取的行動而異，通過成功的概率或結果的失敗來計算，以及其他因素。代理基本上試圖基於獎勵和懲罰值在數值上優化所有動作，以獲得給定任務的最大結果分數。

該方法用於訓練電腦程式DeepMind，該計劃在2016年成為擊敗遊戲「Go」中世界上最好的人類玩家之一的頭條新聞。它還用於訓練無人駕駛汽車的機動動作，例如合併到交通或停車場，車輛將一遍又一遍地練習，調整其路線，直到它正確。

研究人員採用RL模型進行膠質母細胞瘤治療，使用替莫唑胺（TMZ）和丙卡巴肼，洛莫司汀和長春新鹼（PVC）聯合使用，治療數周或數月。

該模型的代理人梳理傳統的治療方案。這些方案基於臨床使用數十年的方案，並基於動物試驗和各種臨床試驗。腫瘤學家使用這些已建立的方案來預測基於體重給患者的劑量。

當該模型探索該方案時，在每個計劃的給葯間隔 - 例如，每月一次 - 它決定幾種行為中的一種。它可以首先啟動或停止劑量。如果它確實給葯，則它決定是否需要整個劑量或僅一部分。在每次行動中，它都會採用另一種臨床模型 - 通常用於預測腫瘤在治療時的大小變化 - 以確定該作用是否會縮小平均腫瘤直徑。如果是，模型將獲得獎勵。

然而，研究人員還必須確保該模型不僅僅能提供劑量的最大數量和效力。因此，每當模型選擇施用所有全劑量時，它都會受到懲罰，因此選擇更少，更小的劑量。「如果我們想做的就是減少平均腫瘤直徑，讓它採取任何行動，它會不負責任地管理藥物，」Shah說。「相反，我們說，"我們需要減少達到這一結果所需的有害行為。"」

這代表了一種「非正統的RL模型，首次在論文中描述，」Shah說，它衡量了行為（劑量）對結果（腫瘤減少）的潛在負面影響。傳統的RL模型致力於單一結果，例如贏得遊戲，並採取任何和所有最大化該結果的行動。另一方面，研究人員的模型，在每個動作，具有靈活性，以找到不一定單獨最大化腫瘤減少的劑量，但在最大腫瘤減少和低毒性之間達到完美平衡。他補充說，這項技術有各種醫學和臨床試驗應用，必須調節治療患者的行動，以防止有害的副作用。

最佳方案

研究人員對50名模擬患者進行了模型訓練，這些患者是從以前接受過傳統治療的膠質母細胞瘤患者的大型資料庫中隨機選擇的。對於每位患者，該模型進行了大約20,000次試錯測試。培訓完成後，模型學習最佳方案的參數。當給予新患者時，該模型使用這些參數來基於研究人員提供的各種約束來制定新的方案。

然後，研究人員對50名新模擬患者進行了模型測試，並將結果與使用TMZ和PVC的傳統方案進行了比較。當沒有給予劑量懲罰時，該模型設計了幾乎與人類專家相同的方案。然而，考慮到小劑量和大劑量給葯，它大大減少了劑量的頻率和效力，同時減少了腫瘤大小。

研究人員還設計了模型，以單獨治療每個患者，並在單個隊列中，並取得了類似的結果（研究人員可獲得每位患者的醫療數據）。傳統上，相同的給藥方案適用於患者組，但腫瘤大小，病史，遺傳譜和生物標誌物的差異都可以改變患者的治療方式。Shah說，在傳統的臨床試驗設計和其他治療過程中，這些變數不予考慮，往往導致對大量人群的治療反應不佳。

「我們說[對模型]，"你是否必須為所有患者服用相同的劑量？並且它說"不，我可以給這個人四分之一劑量，一半給這個人，也許我們跳過一個這個人的劑量。" 這是這項工作中最激動人心的部分，我們可以通過使用非正統的機器學習架構進行一人試驗來生成基於精確醫學的治療，「Shah說。