[實證] GRADE評核系統-證據等級

之前有整理過參加GRADE workshop的心得，剛好最近複習這部分，再次整理一點小小心得

為什麼要做GRADE?

~~因為要投稿而reviewer要求附上~~，因為目前的系統性回顧文獻作者大多對原始文獻進行評讀，例如ROB、Newcastle Ottawa scale等，對於系統誤差跟隨機誤差並沒有參考依據，所以透過GRADE評核比較不會遺漏其他誤差，也能提供整體的證據等級。

在2011年的證據等級比賽中，有216位臨床醫師被分到四個不同評核系統進行操作評讀，GRADE系統在那次比賽中脫穎而出，不過GRADE不是萬能的，它只是一個比較目前比較優秀的評分系統，不代表未來不會被超越。

GRADE評核系統目前用於三個領域：系統性文獻回顧、衛生技術評估以及實證臨床照護指引，在文獻回顧部分，GRADE僅提供證據等級分級（高High、中Moderate、低Low、極低Very low），不提供建議（強或弱建議）

基於專家共識，隨機對照試驗的證據，起始判斷會給：高證據品質(High)，觀察性研究的起始品質會給予：低證據品質(Low)，都有五個降級因素跟三個升級因素，每個評核都是以預後指標為一個單位，建議以重要性來排序。

介入性試驗

降級的五個因素包括（主要是用在隨機對照試驗）

risk of bias 偏移風險	主要項目包括：隨機分組不正確、沒有隱匿分派、盲法做不好、Drop out rate流失率太高、不是意向分析(ITT analysis)、有選擇性報告偏差等目前ROB工具很多，可用Cochrane ROB(1.0, 2.0)的結果當作基準
inconsistency 不一致性	不同研究間的異質性：例如種族差異、介入方式差異、預後指標的差異等，我們可以看療效方向和大小、點估計值和可信區間的重疊、P值、I2值>50%等針對結果異質性原因的探討很重要避免盲目或重複降級，最重要的是分析和解釋的原因，例如如果不一致是因為隨機分組不好導致，則在偏倚風險跟不一致性不該重複降級如果只有納入一個試驗，不用評這一項
indirection 間接性	主要參考各試驗的PICO是否一樣（病人族群？中間指標？介入方式？等）試驗的PICO與實際臨床狀況是否存在差異、是否包含臨床重要指標
imprecision 不精確性	反映隨機誤差的大小，判斷結果是否準確？透過統合分析的點估計值、信賴區間上下限以及跨越統計與臨床的無效線判斷類別變項與連續變項參考範圍有所不同另外看納入病人數量或事件發生率是否較少，先看OIS(optimal information size)最優資訊樣本量是否滿足，若不滿足可能降級目前OIS過去的共識大約是類別變項400 events，連續變項400人，如果小於會考慮降級，後來有研究建議類別變相的信賴區間上下限相除(OR>2.5、RR>3)、連續變項以總樣本數<800(每組<400)當作參考
publication bias 發表偏誤	重複發表、未檢索註冊平台、小樣本且多為陽性、利益衝突、藥廠贊助等 publication bias出現時不應立即下結論，要分析其出現的原因以及合併結果的影響

升級考慮三個因素（觀察性的研究適用）

Large effect 效應值大	方法學嚴謹的observation study顯示療效非常顯著(例如不連續變項的比率大於一定比例)，如果是連續變項要轉換成不連續變項去判斷例如有益的相對風險>2，可考慮升1級，>5升2級
Dose response 劑量效應關係	有做且發現介入劑量和產生的效應有明顯關聯時
All plausible confounding 干擾因素負偏倚	因為觀察性實驗結果的偏差而低估效果時，可升級證據質量

以上原則適用於治療性研究，但仍有一些地方要注意跟未來的挑戰

每個類別評分根據起始等級(RCT: High, Observational study: Low)做判斷，覺得有顧慮減1分判斷為嚴重serious，覺得非常有問題的減2分判斷為非常嚴重very serious

每個類別減1(serious) or 2分(very serious)，是單項降分的可能性，不是直接降grade等級，看有幾個類別需要降級才做最後判斷，例如以RCT的outcome做GRADE評估

全部項目共減1分：Modetae，共減2分：Low，共減3分以上：Very low

一個outcome他只能設定RCT or observation study，如果兩種研究同時都有，無法在GRADE的SoF表單列出

有些項目並沒有『明確』客觀數字定義來幫助判斷，需要依據個人主觀經驗來判斷，特別是在large effect以及all plausible confounding是否可以升級，需要仔細思考

各升降級因素的互相影響複雜，GRADE小組目前無明確定論

GRADE除了最重要的grade handbook之外，台灣實證醫學會SR&MA工作坊課程有持續更新，歡迎有興趣的朋友一起來聽

診斷性試驗

診斷性試驗跟介入性試驗不同，他的PICO分別代表病人、待檢測的工具、診斷的黃金標準，O是敏感度、特異性或者診斷的概似比(likelihood ratio)。

診斷性試驗有兩種研究設計，一種是診斷性隨機對照試驗(D-RCT)，另一種是比較常見的診斷性檢驗準確性試驗(DTA)，不管是D-RCT或DTA，起始的證據品質會給予：高證據品質(High)，然後再根據五個因素判斷是否降級，和介入性試驗的有點不同，D-RCT會根據介入性試驗的GRADE評估系統細項，DTA會根據下面的評估細項

診斷性試驗的降級因素

risk of bias 偏差風險	主要根據QUADAS-2的問題(檢測四個項目：patient selection, index test待檢測試驗, reference standard參考的黃金標準, flow and timing病例流程和進展情況) 嚴重偏差風險的降一分，非常嚴重的降兩分
Inconsistency 不一致性	臨床不一致(閾值效應：要用公式計算、非閾值效應）、方法學不一致(PICO來看)、統計學不一致，可參考敏感度、特異度、方向變異是否較大、I2 >50%且p<0.1等
Indirection 間接性	主要包含三個面向：族群是否有較大差異、診斷試驗跟黃金標準之間的差異、研究中的試驗是否為間接比較
Imprecision 不精確性	納入研究的樣本總量是否足夠(可用查表估計、公式計算等)、合併結果的95%可信區間是否過寬判斷樣本總量估算目前無統一作法不夠或過寬的需要降級
publication bias 出版偏差	檢索策略和納入排除標準、利益衝突、Deek’s funnel plot test(診斷性研究的發表偏倚檢測)