WFU

2020年2月4日 星期二

[實證] GRADE評核系統-證據等級

之前有整理過參加GRADE workshop的心得,剛好最近複習這部分,再次整理一點小小心得

什麼要做GRADE?


因為要投稿而reviewer要求附上,因為目前的系統性回顧文獻作者大多對原始文獻進行評讀,例如ROBNewcastle Ottawa scale等,對於系統誤差跟隨機誤差並沒有參考依據,所以透過GRADE評核比較不會遺漏其他誤差,也能提供整體的證據等級。

2011年的證據等級比賽中,有216位臨床醫師被分到四個不同評核系統進行操作評讀,GRADE系統在那次比賽中脫穎而出,不過GRADE不是萬能的,它只是一個比較目前比較優秀的評分系統,不代表未來不會被超越。

GRADE評核系統目前用於三個領域:系統性文獻回顧、衛生技術評估以及實證臨床照護指引,在文獻回顧部分,GRADE僅提供證據等級分級(高High、中Moderate、低Low、極低Very low),不提供建議(強或弱建議)

基於專家共識,隨機對照試驗的證據,起始判斷會給:高證據品質(High),觀察性研究的起始品質會給予:低證據品質(Low),都有五個降級因素跟三個升級因素,每個評核都是以預後指標為一個單位,建議以重要性來排序。

介入性試驗

降級的五個因素 包括(主要是用在隨機對照試驗)

risk of bias
偏移風險
主要項目包括:隨機分組不正確、沒有隱匿分派、盲法做不好、Drop out rate流失率太高、不是意向分析(ITT analysis)、有選擇性報告偏差等
  • 目前ROB工具很多,可用Cochrane ROB(1.0, 2.0)的結果當作基準
inconsistency
不一致性
不同研究間的異質性:例如種族差異、介入方式差異、預後指標的差異等,我們可以看療效方向和大小、點估計值和可信區間的重疊、P值、I2>50%

針對結果異質性原因的探討很重要
  • 避免盲目或重複降級,最重要的是分析和解釋的原因,例如如果不一致是因為隨機分組不好導致,則在偏倚風險跟不一致性不該重複降級
  • 如果只有納入一個試驗,不用評這一項
indirection
間接性
主要參考
  • 各試驗的PICO是否一樣(病人族群?中間指標?介入方式?等)
  • 試驗的PICO與實際臨床狀況是否存在差異、是否包含臨床重要指標
imprecision
不精確性
反映隨機誤差的大小,判斷結果是否準確?透過統合分析的點估計值、信賴區間上下限以及跨越統計與臨床的無效線判斷
  • 類別變項與連續變項參考範圍有所不同

另外看納入病人數量或事件發生率是否較少,先看OIS(optimal information size)最優資訊樣本量是否滿足,若不滿足可能降級
  • 目前OIS過去的共識大約是類別變項400 events,連續變項400人,如果小於會考慮降級,後來有研究建議類別變相的信賴區間上下限相除(OR>2.5、RR>3)、連續變項以總樣本數<800(每組<400)當作參考
publication bias
發表偏誤
重複發表、未檢索註冊平台、小樣本且多為陽性、利益衝突、藥廠贊助等
  • publication bias出現時不應立即下結論,要分析其出現的原因以及合併結果的影響

升級考慮三個因素(觀察性的研究適用)

Large effect
效應值大
方法學嚴謹的observation study顯示療效非常顯著(例如不連續變項的比率大於一定比例),如果是連續變項要轉換成不連續變項去判斷
  • 例如有益的相對風險>2,可考慮升1級,>52
Dose response
劑量效應關係
有做且發現介入劑量和產生的效應有明顯關聯時
All plausible confounding
干擾因素負偏倚
因為觀察性實驗結果的偏差而低估效果時,可升級證據質量

以上原則適用於治療性研究,但仍有一些地方要注意跟未來的挑戰
  • 每個類別評分根據起始等級(RCT: High, Observational study: Low)做判斷,覺得有顧慮減1分判斷為嚴重serious,覺得非常有問題的減2分判斷為非常嚴重very serious 
  • 每個類別減1(serious) or 2(very serious),是單項降分的可能性,不是直接降grade等級,看有幾個類別需要降級才做最後判斷,例如以RCT的outcome做GRADE評估
    • 全部項目共減1分:Modetae,共減2分:Low,共減3分以上:Very low
  • 一個outcome他只能設定RCT or observation study,如果兩種研究同時都有,無法在GRADESoF表單列出
  • 有些項目並沒有『明確』客觀數字定義來幫助判斷,需要依據個人主觀經驗來判斷,特別是在large effect以及all plausible confounding是否可以升級,需要仔細思考
  • 各升降級因素的互相影響複雜,GRADE小組目前無明確定論

GRADE除了最重要的grade handbook之外,台灣實證醫學會SR&MA工作坊課程有持續更新,歡迎有興趣的朋友一起來聽

診斷性試驗 

診斷性試驗跟介入性試驗不同,他的PICO分別代表病人、待檢測的工具、診斷的黃金標準,O是敏感度、特異性或者診斷的概似比(likelihood ratio)


診斷性試驗有兩種研究設計,一種是診斷性隨機對照試驗(D-RCT),另一種是比較常見的診斷性檢驗準確性試驗(DTA),不管是D-RCTDTA,起始的證據品質會給予:高證據品質(High),然後再根據五個因素判斷是否降級,和介入性試驗的有點不同,D-RCT會根據介入性試驗的GRADE評估系統細項,DTA會根據下面的評估細項

診斷性試驗的降級因素

risk of bias
偏差風險
主要根據QUADAS-2的問題(檢測四個項目:patient selection, index test待檢測試驗, reference standard參考的黃金標準, flow and timing病例流程和進展情況)
  • 嚴重偏差風險的降一分,非常嚴重的降兩分
Inconsistency
不一致性
臨床不一致(閾值效應:要用公式計算、非閾值效應)、方法學不一致(PICO來看)、統計學不一致,可參考敏感度、特異度、方向變異是否較大、I2 >50%p<0.1
Indirection
間接性
主要包含三個面向:族群是否有較大差異、診斷試驗跟黃金標準之間的差異、研究中的試驗是否為間接比較
Imprecision
不精確性
納入研究的樣本總量是否足夠(可用查表估計、公式計算等)、合併結果的95%可信區間是否過寬判斷
  • 樣本總量估算目前無統一作法
  •  不夠或過寬的需要降級
publication bias
出版偏差
檢索策略和納入排除標準、利益衝突、Deek’s funnel plot test(診斷性研究的發表偏倚檢測)

以上原則適用於診斷性試驗研究(DTA),但仍有一些地方要注意跟未來的挑戰
  • 沒有升級的三個判斷因素
  •  cross-section and case control study都放在一起,不需要特別區分
  •  避免重複降級:例如偏差風險常常跟後續的不一致性或精確性有關
  • 目前GRADE小組對於診斷性試驗的偏差風險評估沒有明確的工具,除了QUADAS-2之外,AMSTARROBIS等評估工具都需要更多研究驗證信效度。


沒有留言:

張貼留言