利用真實世界數據做好研究：聊聊熱門的療效比較研究（CER）

2019年1月30日，《Nature Reviews Clinical Oncology》發表了一篇題為《Real-world data: towards achieving the achievable in cancer care》的綜述，以腫瘤領域為例，詳細介紹了真實世界數據。

在前面的幾篇文章中，我們舉例了利用患者、治療和結局真實世界數據（RWD）的經典研究，介紹了大家關心的數據質量問題。詳見：《利用真實世界數據做好研究：關鍵的數據質量問題》，《利用真實世界數據做研究：可以從哪些方面入手？》。

今天這篇文章，我們來講一講療效比較研究（Comparative Effectiveness Research，CER）。

隨機對照試驗（RCT）

和真實世界數據（RWD）

RCT和RWD分別通過不同的研究方法解決不同的研究問題：RCT是探討患者想要達到的結局，而RWD研究是分析已經出現的結局。對於RCT無法解決的很多問題，可以利用RWD來探索。當使用RWD對兩種治療方案的有效性進行比較時，該研究應該被視為是用來產生假設，但如果研究設計不當，其結果可能對患者有害。

RCT的優勢在於數據內部有效性較好，但缺點是缺乏外推性，因為受試者的代表性較差。據統計，由於嚴格的納入排除標準，能進入臨床試驗的美國成年癌症患者不超過5%。但是，這也不是說不能提高RCT的外推性。例如，RCT在兒科腫瘤的應用時間較長，約有60%的患兒可以被納入到RCT中。據此，Peto等認為應該放寬RCT對成年患者的納入標準。不應該期望RWD研究解決RCT的外推性問題，而應該提高RCT自身的代表性。

最後，必須強調，RCT研究和利用RWD（數據源）的研究並不是相互排斥的。雖然我們常常通過RWD研究補充RCT的不足，但人們越來越希望在真實世界中開展RCT，再根據電子病歷和註冊登記數據對比不同治療方案的毒性和結局。

真實世界的療效比較研究

很多人認為，在真實世界中，對接受了不同治療方案的非隨機分組患者進行結局的比較是有問題的，因為不同組的患者可能在預後因素上本身就存在差異。

如今對RWD研究這方面的擔憂，就像50年前人們對於使用機構數據（institutional data）來評估治療效果的擔憂一樣。人群為基礎的研究，其外部一致性比機構為基礎的研究好，而後者的內部一致性較好，兩者的證據等級都是3級（Sackett證據等級）。

RWD觀察性研究可以採取以下三種方法減小偏倚：第一，通過多因素分析調整潛在混雜，但該方法只能調整已知且可測量的因素。第二，應用傾向評分法。第三，採用工具變數分析（IVA）。

（具體可查看醫咖會以前推送的專題：控制混雜因素，教你4招！這三種方法都有具體文章介紹）

我們認為，療效比較研究也是有層級的。層級頂端的研究，是探索RCT中觀察到的efficacy（理論療效或效力）是否確實能轉換成真實世界中的effectiveness（實際療效或效果）。雖然這類研究仍可能出現偏倚，但驗證的效應來自證據力度為1級的RCT，這個效應真實存在的可信度很高。舉例來說，RCT提示輔助化療對NSCLC患者有益，利用真實世界研究分析這種治療的接受度和結局，發現真實世界中的患者也有生存獲益。

第二種情況，檢驗非1級證據發現的效應。這種情況一般是為結果提供更多的證據支持。例如，我們曾經做過的膀胱癌輔助化療研究，為那些表明順鉑治療有益的一系列小規模RCTs提供了更多支持。

第三種情況，RCT未發現治療有效，且沒有其他證據表明有效。在這種情況下，即使觀察性研究結果說明治療有效，考慮到出現I型錯誤的可能性較高，我們也會對觀察性結果提出質疑。

基於美國國家癌症資料庫（NCDB）的一些研究結果證明了這種現象。舉例來說，RCT研究結果認為，針對II期結腸癌患者的輔助化療作用很小，放療可以控制局部疾病發展，但對直腸癌的總體生存無影響。

與RCT結果不同的是，基於NCDB的兩項研究（2016年、2017年）發現低風險II期結腸癌患者接受輔助化療可以獲得顯著改善，新輔助放療也對局部晚期直腸癌有明顯益處。觀察到的治療有效性更有可能來自於殘餘混雜、永恆時間偏倚以及測量誤差，而不是這些治療在真實世界中的療效真的比RCT中好。

療效比較研究的質量

僅依據研究類型來定級證據並不合理，比如，觀察性研究的效度可以很大，也可以很小，取決於其研究操作和分析。流行病學家很少進行RCT，他們主要依靠觀察性研究，並建立了評價此類數據質量的方法。Sanderson等系統總結了評價觀察性研究質量的86種方法[PMID: 17470488]。但Sanderson等並不能確定哪一種方法最好，他們認為評價工具必須包含觀察性研究的3個要素：調查對象的選擇，暴露和結局的測量，混雜的控制，同時也應該針對研究設計評估其他可能出現的偏倚。

雖然Sanderson等總結的方法中有一些計算了總的評價分數，但他們認為這樣做是不對的。因為計算總分勢必會對研究要素加權，而加權的過程往往不盡合理。因此，Sanderson等認為應該使用一個簡明的列表來評估觀察性研究，尤其是那些可以影響研究結果的、潛在的關鍵性偏倚。

Sanderson等總結的方法也可以用於評估隊列研究質量。基於評價非隨機研究質量的紐卡斯爾-渥太華量表，我們建立了針對腫瘤人群結局研究的評價框架（框2）。該框架不計算總分，是對癌症註冊登記數據結局研究的定性評估，也符合Sanderson等對評估工具的基本要求：（1）隻包含關鍵要素；（2）在考慮到研究設計和主題的情況下，盡量具體；（3）以列表而不是量表的形式展現；（4）嚴謹，並體現有效性和可靠性。我們會在本文中討論前三項要求。

為避免人群研究設計帶來的偏倚，應儘可能遵循臨床試驗的邏輯進行統計分析。在人群結局研究中，研究者通常可以同時獲得研究對象、治療分組以及結局數據。那麼，分析時必須按照時間邏輯進行，即治療分組不能影響研究對象的納入，患者結局也不能影響治療分組。因此，必須在治療分組之前確定納入標準，並且在評估結局之前確定治療分組。

這聽起來容易，但實際上很難，假設我們以癌症分期作為一項納入標準，那麼治療分組就很可能會影響研究對象的納入。這個問題在於患者註冊登記只能記錄癌症患者的部分數據，如記錄手術患者的手術和臨床信息，非手術患者的臨床信息。在這種情況下，手術患者的信息比較全面，而非手術患者就相應的缺少很多信息，從而不能比較兩種患者之間的治療結局差異。某些註冊登記數據也會在治療開始後更新患者的癌症分期，如依據術後分期骨掃描結果更新數據。

如果我們事先意識到可能存在的問題，那麼患者結局對治療分組的影響就比較容易解決。假設一項研究的主要結局是存活，以患者是否在確診後3個月內完成治療為依據進行治療分組，如果患者在確診後3個月內死亡，就被自動分到了對照組。那麼在這項研究中，研究者以患者的確診時間作為存活的開始計算時間，就會低估對照組的存活結局。這是永恆時間偏倚的典型例子，因為乾預組患者在治療開始之前都沒有死亡，而對照組患者在確診後就可能已經出現了死亡。

RCT研究通過意向性分析來避免這個問題，但這對觀察性研究並不適用。因為在觀察性研究中患者的治療意向是未知的，只有當患者接受了治療之後才能進行治療分組。針對上面這個研究的問題，我們可以簡單地排除早期死亡患者，以確診後3個月為結局測量的開始時間。

在評價觀察性研究提示的治療效果時，研究者可以借鑒流行病學領域評價暴露-疾病的方法。在使用RWD的研究中，Bradford Hill的評估因果關聯框架[PMID: 14283879]可以用於指導治療效果的評估。

這套因果評價體系可以用於評價總體證據力度、關聯強度及不同研究的一致性（關聯強度和一致性越好，提示關聯存在的概率越大）；是否存在劑量反應關係；與預期結局相關而不是與其他結局相關的特異性暴露或治療；以及該治療效果的合理性和理論基礎。

當然，進行因果分析時並不一定要知道治療效果出現的理論機制，但如果了解了其理論基礎就可以增加研究者對結果的信心。基於Hill的評價體系，我們為評估人群研究結果設置了一些條目，幫助對比不同治療方案的療效（框2）。

RWD在監管方面的應用

RWD正越來越多地應用於藥物審批和基金資助決策。當然，藥物審批肯定不僅僅依據RWD，目前許多國家是在監管審批時將RWD作為臨床試驗的補充。依據二十一世紀治療法（21st Century Cures Act）的要求，FDA應進一步制定RWD在藥物審批中的應用指南。

醫療服務的成本效益逐漸受到人們重視，也因此激發了研究者對RWD支撐醫保決策的關注。管理者在開展衛生技術評估（Health Technology Assessment，HTA）時需要使用RWD，以尋找證據證明臨床乾預在改善生存、提高生活質量以及降低成本方面的有效性。同時，RWD也可以指導藥物報銷，幫助制定醫保支付政策並進行藥物經濟學分析。

在開始進行HTA時，研究者通常對乾預的療效提出問題，如在III期臨床試驗中發現的efficacy（效力）是否能轉換成真實世界中的effectiveness（效果）？藥物審批後，RWD常用於制定醫保支付決策或準入協議。

本文整理自綜述：

Nat Rev Clin Oncol. 2019 Jan 30. doi: 10.1038/s41571-019-0167-7.

更多閱讀

-ykh

關注醫咖會，提高臨床研究水準！

），拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。

TAG: |