forked from OHDSI/TheBookOfOhdsi
-
Notifications
You must be signed in to change notification settings - Fork 1
/
EvidenceQuality.Rmd
99 lines (56 loc) · 25.5 KB
/
EvidenceQuality.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
# (PART) Evidence Quality {-}
# エビデンスの質 {#EvidenceQuality}
*Chapter leads: Patrick Ryan & Jon Duke*
\index{evidence quality}
## 信頼できるエビデンスの属性
本格的な旅を開始する前に、我々が望む理想的な終着地がどこなのか思い描くことが助けになるであろう。データからエビデンスへの旅をサポートするために、私たちはエビデンスの品質を信頼できるものにするために必要な属性を重要視する.
```{r attributesOfEvidence, fig.cap='信頼性のあるエビデンスのための望ましい属性', echo=FALSE, out.width='100%', fig.align='center'}
knitr::include_graphics("images/EvidenceQuality/reliableevidenceattributes.png")
```
信頼できるエビデンスは **繰り返し可能(repeatable)** でなければならない。つまり、研究者は、与えられた質問に対して同じデータに対し同じ分析を実行したとき、同じ結果が得られることを期待すべきである。エビデンスが再現可能であることの必要最低条件には、エビデンスは特定の入力を用いて定義されたプロセスを実行した結果であり、途中でその場しのぎの意思決定を手動で行うことがないようにすべきであるという考え方が暗黙的に示されている。より理想的なのは、信頼できるエビデンスは **再現可能(reproducible)** であり、他の異なる研究者が与えられたデータと分析方法を使って、同じ業務を遂行したとき、最初の研究者の実行結果と同じ結果を出すことができなければならない。再現性とは、研究結果が研究者の裁量に委ねられないように、一般的には人間が読める形式とコンピュータで実行可能な形式の両方でプロセスが完全に具体化されていることが必要である。繰り返し性と再現性を達成するための最も効率的な解決策は、入力と出力が定義されている標準化された分析ルーチンを使用し、バージョン管理されたデータベースに対してこれらの手順を適用することである。
> 신뢰할 수 있는 근거는 **반복 가능(repeatable)** 해야 한다. 즉, 연구원이 주어진 질문에 대해 동일한 데이터를 이용하여 동일한 분석을 수행할 때 동일한 결과가 나올 것이라 기대할 수 있어야 한다. 근거의 반복 가능성에 대한 최소한의 요구 조건은 근거가 특정 데이터를 입력하고 정의된 절차를 수행하여서 나온 결과라는 점과 이것은 사후 의사 결정 과정에서의 수동적인 개입에서 벗어난다는 점이다. 조금 더 이상적으로는, 신뢰할 수 있는 근거는 **재현 가능(reproducible)** 해야 하는데, 다른 연구자가 주어진 데이터와 분석 방법을 가지고 동일한 업무를 수행하였을 때 첫 연구자의 수행 결과와 동일한 결과를 낼 수 있어야 한다. 재현 가능성을 위해서 연구 절차는 일반적인 사람이 읽을 수 있고, 컴퓨터가 실행할 수 있으며 충분히 구체화 되어 있어 추가적인 연구자의 결정이 연구 결과에 반영되지 않도록 해야 한다. 반복성과 재현성을 충족시킬 수 있는 가장 효과적인 방법은 사전에 정의한 데이터의 입출력을 이용하여 표준화된 분석 방법을 사용하고, 이러한 절차를 버전 관리 데이터베이스에 적용하는 것이다.
似たようなデータに対して同じ分析を実行し同じ質問をしても、同様の結果が得られるといった、 **反復可能(replicable)** であることを示すことができれば、私たちのエビデンスは信頼できると確信できる可能性が高くなる。例えば、ある大規模な民間保険会社の管理請求データベースに対する分析から得られたエビデンスは、別の保険会社の請求データで再現されれば、強化されるかもしれません。母集団レベルの効果推定の文脈では、この属性はオースティン・ブラッドフォード・ヒル卿の一貫性に関する因果関係の視点とよく一致しています:「異なる場所、状況、時間で、異なる人によって繰り返し観察されているか?(Hill 1965) 患者レベルの予測という文脈では、複製性は、外部検証の価値と、あるデータベースで訓練されたモデルを別のデータベースに適用したときの識別精度と較正を観察することによって、その性能を評価する能力を強調しています。異なるデータベースに対して同一の分析を行っても、一貫して同様の結果が得られる状況では、我々のエビデンスが一般化可能であるという確信をさらに得ることができます。OHDSI研究ネットワークの重要な価値は、異なる集団、地域、データ収集プロセスによって表される多様性である。Madiganら(2013)は、効果推定値がデータの選択に敏感であることを示した。各データソースには固有の制限や独自のバイアスがあり、単一の知見に対する信頼性を制限していることを認識しているが、異種データセット間で類似のパターンを観察することは、ソース固有のバイアスだけで知見を説明できる可能性を大幅に減少させることができるため、非常に大きな力を発揮する。ネットワーク研究で、米国、ヨーロッパ、アジアの複数のクレームやEHRデータベースで一貫した母集団レベルの効果推定値が示された場合、その研究は、医療の意思決定に影響を与えるためのより広い範囲を持つことができる医療介入についてのより強力な証拠として認識されるべきである。
We are more likely to be confident that our evidence is reliable if it can be shown to be **replicable**, such that the same question addressed using the identical analysis against similar data yield similar results. For example, evidence generated from an analysis against an administrative claims database from one large private insurer may be strengthened if replicated on claims data from a different insurer. In the context of population-level effect estimation, this attribute aligns well with Sir Austin Bradford Hill's causal viewpoint on consistency, "Has it been repeatedly observed by different persons, in different places, circumstances and times?...whether chance is the explanation or whether a true hazard has been revealed may sometimes be answered only by a repetition of the circumstances and the observations." [@hill_1965] In the context of patient-level prediction, replicability highlights the value of external validation and the ability to evaluate performance of a model that was trained on one database by observing its discriminative accuracy and calibration when applied to a different database. In circumstances where identical analyses are performed against different databases and still show consistently similar results, we have further gain confidence that our evidence is **generalizable**. A key value of the OHDSI research network is the diversity represented by different populations, geographies and data capture processes. @madigan_2013 showed that effect estimates can be sensitive to choice of data. Recognizing that each data source carries with it inherent limitations and unique biases that limit our confidence in singular findings, there is tremendous power in observing similar patterns across heterogeneous datasets because it greatly diminishes the likelihood that source-specific biases alone can explain the findings. When network studies show consistent population-level effect estimates across multiple claims and EHR databases across US, Europe and Asia, they should be recognized as stronger evidence about the medical intervention that can have a broader scope to impact medical decision-making.
Reliable evidence should be **robust**, meaning that the findings should not be overly sensitive to the subjective choices that can be made within an analysis. If there are alternative statistical methods that can be considered potentially reasonable for a given study, then it can provide reassurance to see that the different methods yield similar results, or conversely can give caution if discordant results are uncovered. [@madigan2013design] For population-level effect estimation, sensitivity analyses can include high-level study design choice, such as whether to apply a comparative cohort or self-controlled case series design, or can focus on analytical considerations embedded within a design, such as whether to perform propensity score matching, stratification or weighting as a confounding adjustment strategy within the comparative cohort framework.
> 또한 우리는 동일한 질문에 대해 비슷한 데이터를 가지고 동일 분석 방법을 적용하여 비슷한 결과를 얻을 수 있는, **복제 가능한(replicable)** 것으로 보인다면 우리가 주장하는 근거는 더욱 신뢰할 만하다고 자신할 수 있다.
예를 들어, 한 대규모 보험사의 청구 데이터베이스에 대한 분석에서 생성된 근거는 다른 보험사의 청구 데이터베이스를 이용하여 복제가 가능할 경우 그 근거가 강화될 수 있다. 인구 수준 효과 추정의 관점에서도 이 속성들은 Austin Bradford Hill의 인과적 관점과 잘 일치한다. “다른 사람, 다른 장소, 환경 및 시간에서도 반복적으로 관찰되었습니까? …(중략)… 반복적인 상황과 관찰만이 우연으로 설명되는 현상인지 혹은 실재하는 위험인지 답할 수 있다.” [@hill_1965] 환자 수준 예측의 맥락에서 복제 가능성은 외부 검증(external validation)의 시행에 대한 중요성뿐 아니라, 한 데이터베이스에서 훈련된 모델이 다른 데이터베이스에 적용될 때 결과를 구별할 수 있는 정확도(discriminative accuracy)와 보정(calibration)을 관찰함으로써 모델의 성능을 평가할 수 있는 능력을 강조한다. 서로 다른 데이터베이스에 대해 동일한 분석을 수행하고, 여전히 유사한 결과를 보이는 상황에서 우리는 우리의 근거가 **일반화될 수 있다(generalizable)**는 확신을 얻는다. OHDSI 연구 네트워크의 핵심 가치는 다른 인구, 지역, 자료 획득 과정 등으로 대표되는 다양성이다. @madigan_2013 은 효과 추정치(effect estimates)가 데이터의 선택에 따라 민감하게 변할 수 있음을 보여주었다. 각 데이터 소스가 단일 연구의 신뢰도를 하락시킬 수 있는 고유의 한계점과 비뚤림이 있다는 점을 인식한 상태에서도, 서로 다른 데이터 세트를 사용하여 유사한 결과 패턴이 관측된 것은 상당히 강력한 의미가 있다. 이는 데이터 소스 각각이 가지고 있는 비뚤림의 가능성을 상당 부분 감소 시켜, 연구 결과를 설명할 수 있기 때문이다. 네트워크 연구의 인구 수준 효과 추정치가 미국, 유럽, 아시아 그리고 다양한 청구데이터, 전자의무기록 데이터상에서 일관된 결과를 보여줄 때 해당 의학적 중재는 의학적 의사 결정 과정에서 더 큰 영향을 줄 수 있는 더욱 강력한 근거로서 인식되어야 한다.
信頼できるエビデンスはロバストでなければならない。つまり、所見が分析の中で行われる主観的な選択に過度に敏感になってはならない。与えられた研究において、潜在的に妥当であると考えられる代替的な統計手法があれば、異なる手法が同様の結果をもたらすことを確認することで安心感を与えることができ、逆に不一致の結果が明らかになった場合には注意を促すことができる(Madigan Ryan and Schuemie 2013)。(Madigan, Ryan, and Schuemie 2013) 母集団レベルの効果推定については、感度分析では、比較コホートデザインを適用するか、自己制御のケースシリーズデザインを適用するかといった高レベルの研究デザインの選択を含むことができ、また、比較コホートの枠組みの中で交絡調整戦略として、プロペンシティスコアのマッチング、層化、重み付けを行うかどうかといったデザインの中に組み込まれた分析的考慮事項に焦点を当てることができる。
> 신뢰할 만한 근거는 분석 내에서 주관적 선택에 지나치게 민감하지 않은 **완건성(robust)**을 가져야 한다. 주어진 연구에 대해서 잠재적으로 합당하다고 고려되는 대안적인 통계 방법이 있다면, 결과에 따라서 다른 방법을 통해 얻은 동일한 결과로 기존 연구 결과에 대해 확신하거나, 혹은 상충하는 결과를 통해 기존 연구에 대한 경각심을 줄 수 있다. [@madigan2013design] 인구 수준 효과 추정에서 민감도 분석에는 연구 설계 선정 (코호트 비교 연구, 자기 통제 환자군 (self-controlled case series) 연구 등) 과 분석적 고려사항의 선정 (코호트 비교에서 혼란 변수 조정을 위한 성향점수 매칭, 계층화 또는 가중치 유무) 과 같은 고급 연구 설계의 문제를 포함할 수 있다.
最後に、しかし、潜在的に最も重要なのは、証拠は校正されるべきであるということである。システムの性能が検証できない場合、未知の質問に対する答えを生成するエビデンス生成システムを持っているだけでは十分ではありません。クローズドシステムは、既知の動作特性を持つことが期待されるべきであり、それは、システムが生成する結果を解釈するための文脈として測定され、伝達されるべきである。統計的成果物は、95%の信頼区間が95%のカバー率を持つことや、10%の予測確率を持つコホートが母集団の10%の事象の割合を観測することなど、明確に定義された特性を持つことを経験的に証明でき るものでなければならない。観察研究には、計画、方法、データに関する仮定を検証する研究診断を常に伴うべきである。これらの診断は、研究の妥当性に対する主要な脅威である選択バイアス、交絡因子、および測定誤差の評価を中心に行うべきである。負の対照は、観察研究における系統的誤差を特定し、軽減するための強力なツールであることが示されている(Schuemie et al. (Schuemie et al. 2016; Schuemie, Hripcsak, et al. 2018; Schuemie, Ryan, et al. 2018)
> 마지막으로 가장 중요할 수도 있는 부분은 근거는 **보정되어야 한다(calibrated)**는 점이다. 근거 생성 시스템에 대한 성능이 검증되지 않은 상태에서는 해당 시스템이 미지의 연구 질문에 대한 답변을 제공한다고 말하기 불충분하다. 폐쇄형 시스템은 잘 알려진 작동 특성을 가져야 하며, 이는 측정 가능하고 시스템이 생성하는 어떠한 결과에 대해서도 그 상황을 잘 전달할 수 있어야 한다. 통계적 표현들은 경험적으로 잘 정립된 특성이 있음을 보여줄 수 있어야 한다. 예를 들어 95% 신뢰구간이란 95%의 확률 범위를 갖는다는 뜻이고, 10%의 예상 확률이란 인구 집단에서 관측된 사건 발생의 비율이 10%이라는 뜻이다. 관찰 연구에서는 항상 연구 설계, 연구 방법, 연구 데이터에 대한 가정을 검정할 방법을 수반해야 한다. 이 검정 방법들은 연구 타당성에 일차적인 위협들에 (선택비뚤림, 교란변수, 측정 오차) 대해 먼저 집중하여 평가하여야 한다. 음성 대조군(Negative controls)은 관찰연구에서 발생할 수 있는 계통 오차를 확인하고 감소시킬 수 있는 강력한 도구인 것으로 보였다. [@schuemie_2016; @schuemie_2018; @schuemie_2018b]
## エビデンスの質を理解する
しかし、研究の結果が十分に信頼できるものであるかどうかをどのようにして知ることができるのでしょうか?臨床現場での使用は信頼できるのだろうか?規制上の意思決定ではどうでしょうか?将来の研究の基礎となることができるのか?新しい研究が発表されたり、発表されたりするたびに、その研究が無作為化比較試験であるか、観察研究であるか、あるいは別のタイプの分析であるかにかかわらず、読者はこれらの疑問を考慮しなければならない。
> 하지만 우리의 연구 결과가 충분히 신뢰할만한 수준인지 어떻게 알 수 있을까? 누군가가 우리의 연구에서 설정해놓은 특정 환경들을 신뢰할까? 규제적 의사결정은 어떨까? 향후 연구의 기반이 될 수 있을까? 새로운 연구가 발표되거나 확산되는 과정에서 독자는 연구의 형태 (무작위 대조시험, 관찰 연구, 혹은 다른 유형의 분석 방법) 에 관계없이 이러한 질문들을 염두에 두어야 한다. \index{evidence quality} \index{regulatory decision-making}
観察研究や「実世界のデータ」の使用に関してよく提起される懸念事項の一つに、データの質の問題がある(Botsis et al. 2010; Hersh et al. 2013; Sherman et al. 2016)。(Botsis et al. 2010; Hersh et al. 2013; Sherman et al. 2016) よく指摘されるのは、観察研究で使用されるデータはもともと研究目的で収集されたものではないため、不完全または不正確なデータ収集や固有のバイアスに悩まされる可能性があるということである。このような懸念から、データの質をどのように測定し、特徴づけ、理想的には改善するかについての研究が増えてきている(Kahn et al. OHDSI コミュニティはこのような研究の強力な支持者であり、コミュニティのメンバーは OMOP CDM と OHDSI ネットワークのデータ品質を調査する多くの研究を主導し、参加してきた(Huser et al. (Huser et al. 2016; Kahn et al. 2015; Callahan et al. 2017; Yoon et al. 2016)
> 흔히 관찰 연구(observational study) 즉, 실제 데이터(real world data)를 활용한 연구를 진행하면서 마주하게 되는 우려는 바로 데이터 품질에 관한 부분이다. [@botsis2010secondary; @hersh2013caveats; @sherman2016real] 일반적으로 관찰 연구에 사용된 데이터는 원래 연구 목적으로 수집된 것이 아니므로 내재적 비뚤림(inherent biases)과 같은 불완전하거나 부정확한 데이터의 수집으로 인한 문제를 겪을 수 있다. 이러한 우려로 인해 데이터 품질을 측정하고 특성화하고 이상적으로 데이터 품질을 개선하려는 방법에 대한 연구가 계속해서 증가하고 있다. [@kahn2012pragmatic; @liaw2013towards; @weiskopf_2013] OHDSI 커뮤니티는 이러한 연구를 강력히 지지하며, 커뮤니티 회원들은 OMOP 공통 데이터 모델 및 OHDSI 네트워크의 데이터 품질을 조사하는 많은 연구를 직접 주도하고 참여하였다. [@huser_multisite_2016; @kahn_transparent_2015; @callahan2017comparison; @yoon_2016] \index{data quality} \index{community}
この分野における過去10年間の知見を考えると、データの質は完璧ではないことが明らかになってきており、今後もそうなることはないでしょう。この考え方は、医療情報学分野のパイオニアであるクレム・マクドナルド博士のこの言葉にうまく反映されています。
> 지난 10년간의 결과들을 고려해보면, 데이터 품질이라는 것은 결코 완벽해질 수 없다는 것이 명백해졌다. 이 개념은 의료정보학 분야의 개척자인 Clem McDonald 박사의 인용에도 잘 반영되어 있다. :
> 사실 데이터 충실도의 감소는 의사의 뇌에서 의료기록으로 데이터가 이동하는 것에서부터 시작된다. \index{Clem McDonald}
忠実性の喪失は、医師の脳からカルテへのデータの移動から始まります。--*したがって、私たちは共同体として、不完全なデータを与えられた場合、どのようにして信頼性の高いエビデンスを得ることができるのか、という問いを投げかけなければなりません。*
> 그러므로 우리는 공동체로서 질문해야 할 필요가 있다. --*불완전한 데이터가 주어지면, 어떻게 우리는 신뢰할만한 근거를 얻을 수 있을까?*
その答えは「エビデンスの質」を全体的に見ることにあります。データからエビデンスに至るまでの道のり全体を調べ、エビデンス生成プロセスを構成する各構成要素を特定し、各構成要素の質に対する信頼をどのように構築するかを決定し、その過程で得られたことを各ステップごとに透明性を持って伝えるのです。エビデンスの質は、観察データの質だけでなく、観察分析に使用した方法、ソフトウェア、臨床定義の妥当性も考慮しています。
Thus, as a community we must ask the question -- *given imperfect data, how can we achieve reliable evidence?*
The answer rests in looking holistically at "evidence quality": examining the entire journey from data to evidence, identifying each of the components that make up the evidence generation process, determining how to build confidence in the quality of each component, and transparently communicating what has been learned each step along the way. Evidence quality considers not only the quality of observational data but also the validity of the methods, software, and clinical definitions used in our observational analyses. \index{community} \index{reliable evidence}
> 이 문제에 대한 대답은 “근거의 품질”에 대한 전반적인 부분을 살펴보는 데 있다. 데이터에서부터 근거로의 과정에 대한 검토, 근거 생성 과정의 구성 요소들에 대한 확인, 각 구성 요소의 질에 대한 신뢰 구축 방법의 결정, 그리고 이것을 투명하게 전달하는 방법을 각각 살펴보았다. 근거의 질이란 단순히 관찰 데이터의 품질뿐 아니라 관찰 분석에 사용된 방법, 소프트웨어 및 임상적 정의의 타당성을 고려한다. \index{community} \index{reliable evidence}
次の章では、表14.1に列挙されているエビデンスの質の4つの構成要素を探っていく。
> 뒤이어 나오는 단원에서 우리는 근거의 품질에 해당하는 네 가지 구성요소에 대한 부분을 살펴볼 것이며, 이를 표 \@ref(tab:evidenceQuality)에 나타내었다.
Table: (\#tab:evidenceQuality) エビデンスの質を構成する4つの要素
| 구성요소 | 측정 대상 |
|--------------------------------|-------------------------------------------------------------------------------------------------------------------|
| [데이터 품질](DataQuality.html) | 합의된 구조와 방법을 이용하여 타당한 값을 가진 데이터가 온전히 입력되었는가? |
| [임상적 타당성](ClinicalValidity.html) | 수행된 분석이 임상적 의도와 어느 정도 일치하고 있는가? |
| [소프트웨어의 타당성](SoftwareValidity.html) | 데이터의 변환과 분석 과정이 우리가 의도한 대로 진행되었다고 신뢰할 수 있는가? |
| [방법론적 타당성](MethodValidity.html) | 주어진 데이터의 강점과 약점을 인지하고 있는 상태에서, 적절한 연구 방법론을 사용하고 있는가? |
## エビデンスの質を伝える
エビデンスの質の重要な側面は、データからエビデンスに至るまでの過程で生じる不確実性を表現する能力である。エビデンスの質に関するOHDSIの活動の包括的な目標は、OHDSIによって生成されたエビデンス(多くの点で不完全であることは間違いないが)が、その弱点と長所が一貫して測定され、その情報が厳密かつオープンな方法で伝達されていることを、ヘルスケアの意思決定者に信頼して いただくことである。
> 근거 품질의 중요한 측면은 데이터에서 근거로의 여정에서 발생하는 불확실성을 표현하는 능력이다. OHDSI의 활동을 통해 이루고자 하는 거시적인 목표는 OHDSI에서 생성된 근거가 --비록 여러 방면으로 불완전하더라도-- 강점과 약점에 대하여 일관되게 측정되고, 엄격하고 공개적인 방식으로 전달되어 생성되었다는 신뢰감을 의료 전문가들에게 제공해주는 것이다.
## まとめ
```{block2, type='rmdsummary'}
- 우리가 생성한 근거는 *반복 가능성(repeatable)*, *재현 가능성(reproducible)*, *복제 가능성(replicable)*, *일반화 가능성(generalizable)*, *완건성(robust)*을 갖추어야 하며 *보정된(calibrated)* 결과여야 한다.
- 근거의 품질은 그 근거의 신뢰성 여부를 판단하기 위해 단순히 데이터의 품질만이 아닌 그 이상의 것을 추구한다:
- 데이터 품질
- 임상적 타당성
- 소프트웨어 타당성
- 방법론적 타당성
- 근거를 전달하는 과정에서, 근거의 품질에 대한 다양한 위협으로부터 나타나게 되는 불확실성 또한 표현해야 한다.
```