之前有整理過參加GRADE workshop的心得,剛好最近複習這部分,再次整理一點小小心得
因為要投稿而reviewer要求附上,因為目前的系統性回顧文獻作者大多對原始文獻進行評讀,例如ROB、Newcastle Ottawa scale等,對於系統誤差跟隨機誤差並沒有參考依據,所以透過GRADE評核比較不會遺漏其他誤差,也能提供整體的證據等級。
以上原則適用於診斷性試驗研究(DTA),但仍有一些地方要注意跟未來的挑戰
為什麼要做GRADE?
在2011年的證據等級比賽中,有216位臨床醫師被分到四個不同評核系統進行操作評讀,GRADE系統在那次比賽中脫穎而出,不過GRADE不是萬能的,它只是一個比較目前比較優秀的評分系統,不代表未來不會被超越。
GRADE評核系統目前用於三個領域:系統性文獻回顧、衛生技術評估以及實證臨床照護指引,在文獻回顧部分,GRADE僅提供證據等級分級(高High、中Moderate、低Low、極低Very low),不提供建議(強或弱建議)
基於專家共識,隨機對照試驗的證據,起始判斷會給:高證據品質(High),觀察性研究的起始品質會給予:低證據品質(Low),都有五個降級因素跟三個升級因素,每個評核都是以預後指標為一個單位,建議以重要性來排序。
介入性試驗
降級的五個因素 包括(主要是用在隨機對照試驗)
risk of bias
偏移風險
|
主要項目包括:隨機分組不正確、沒有隱匿分派、盲法做不好、Drop
out rate流失率太高、不是意向分析(ITT analysis)、有選擇性報告偏差等
|
inconsistency
不一致性
|
不同研究間的異質性:例如種族差異、介入方式差異、預後指標的差異等,我們可以看療效方向和大小、點估計值和可信區間的重疊、P值、I2值>50%等 針對結果異質性原因的探討很重要
|
indirection
間接性
|
主要參考
|
imprecision
不精確性
|
反映隨機誤差的大小,判斷結果是否準確?透過統合分析的點估計值、信賴區間上下限以及跨越統計與臨床的無效線判斷
另外看納入病人數量或事件發生率是否較少,先看OIS(optimal information size)最優資訊樣本量是否滿足,若不滿足可能降級
|
publication bias
發表偏誤
|
重複發表、未檢索註冊平台、小樣本且多為陽性、利益衝突、藥廠贊助等
|
升級考慮三個因素(觀察性的研究適用)
Large effect
效應值大
|
方法學嚴謹的observation
study顯示療效非常顯著(例如不連續變項的比率大於一定比例),如果是連續變項要轉換成不連續變項去判斷
|
Dose response
劑量效應關係
|
有做且發現介入劑量和產生的效應有明顯關聯時
|
All plausible
confounding
干擾因素負偏倚
|
因為觀察性實驗結果的偏差而低估效果時,可升級證據質量
|
以上原則適用於治療性研究,但仍有一些地方要注意跟未來的挑戰
- 每個類別評分根據起始等級(RCT: High, Observational study: Low)做判斷,覺得有顧慮減1分判斷為嚴重serious,覺得非常有問題的減2分判斷為非常嚴重very serious
- 每個類別減1(serious) or 2分(very serious),是單項降分的可能性,不是直接降grade等級,看有幾個類別需要降級才做最後判斷,例如以RCT的outcome做GRADE評估
- 全部項目共減1分:Modetae,共減2分:Low,共減3分以上:Very low
- 一個outcome他只能設定RCT or observation study,如果兩種研究同時都有,無法在GRADE的SoF表單列出
- 有些項目並沒有『明確』客觀數字定義來幫助判斷,需要依據個人主觀經驗來判斷,特別是在large effect以及all plausible confounding是否可以升級,需要仔細思考
- 各升降級因素的互相影響複雜,GRADE小組目前無明確定論
GRADE除了最重要的grade handbook之外,台灣實證醫學會SR&MA工作坊課程有持續更新,歡迎有興趣的朋友一起來聽
診斷性試驗
診斷性試驗跟介入性試驗不同,他的PICO分別代表病人、待檢測的工具、診斷的黃金標準,O是敏感度、特異性或者診斷的概似比(likelihood ratio)。
診斷性試驗有兩種研究設計,一種是診斷性隨機對照試驗(D-RCT),另一種是比較常見的診斷性檢驗準確性試驗(DTA),不管是D-RCT或DTA,起始的證據品質會給予:高證據品質(High),然後再根據五個因素判斷是否降級,和介入性試驗的有點不同,D-RCT會根據介入性試驗的GRADE評估系統細項,DTA會根據下面的評估細項
診斷性試驗的降級因素
risk of bias
偏差風險
|
主要根據QUADAS-2的問題(檢測四個項目:patient selection, index test待檢測試驗, reference standard參考的黃金標準, flow and
timing病例流程和進展情況)
|
Inconsistency
不一致性
|
臨床不一致(閾值效應:要用公式計算、非閾值效應)、方法學不一致(PICO來看)、統計學不一致,可參考敏感度、特異度、方向變異是否較大、I2 >50%且p<0.1等
|
Indirection
間接性
|
主要包含三個面向:族群是否有較大差異、診斷試驗跟黃金標準之間的差異、研究中的試驗是否為間接比較
|
Imprecision
不精確性
|
納入研究的樣本總量是否足夠(可用查表估計、公式計算等)、合併結果的95%可信區間是否過寬判斷
|
publication bias
出版偏差
|
檢索策略和納入排除標準、利益衝突、Deek’s funnel plot test(診斷性研究的發表偏倚檢測)
|
以上原則適用於診斷性試驗研究(DTA),但仍有一些地方要注意跟未來的挑戰
- 沒有升級的三個判斷因素
- 將cross-section and case control study都放在一起,不需要特別區分
- 避免重複降級:例如偏差風險常常跟後續的不一致性或精確性有關
- 目前GRADE小組對於診斷性試驗的偏差風險評估沒有明確的工具,除了QUADAS-2之外,AMSTAR、ROBIS等評估工具都需要更多研究驗證信效度。
沒有留言:
張貼留言