EvidenceQuality.Rmd

# 証拠の質 {-}

# 証拠の質 {#EvidenceQuality}

*チャプターリード: Patrick Ryan & Jon Duke*

\index{evidence quality}

## 信頼できる証拠の属性

どんな旅にも出発する前に、理想的な目的地がどのように見えるかを想像することが役立つでしょう。データから証拠への旅を支援するために、信頼できる証拠の質を裏付けることができる望ましい属性を強調します。

```{r attributesOfEvidence, fig.cap='信頼できる証拠の望ましい属性', echo=FALSE, out.width='100%', fig.align='center'}
knitr::include_graphics("images/EvidenceQuality/reliableevidenceattributes.png")
```

信頼できる証拠は**繰り返し可能**であるべきであり、特定の質問に対して同じデータに同じ分析を適用すると、研究者は同一の結果を期待すべきです。この最低要件には、証拠が定義されたプロセスの実行結果であり、途中での手作業の介入や事後的な意思決定の影響を受けることなく、特定の入力に基づいて行われるものであるという考えが暗黙のうちに含まれています。さらに理想的には、信頼できる証拠は**再現可能**であるべきであり、異なる研究者が特定のデータベースで特定の分析を実行した場合でも、最初の研究者と同じ結果を期待できるべきです。再現可能性とは、プロセスが完全に明記されており、人間が読める形式とコンピュータが実行可能な形式の両方であり、調査者の裁量に任される研究の決定がないことを意味します。繰り返し可能性と再現可能性を達成する最も効率的な解決策は、定義された入力と出力を持つ標準化された分析ルーチンを使用し、これらの手続きをバージョン管理されたデータベースに適用することです。

証拠が**複製可能**である場合、その証拠が信頼できるものであることに自信を持つ可能性が高まります。つまり、同じ質問に対して類似のデータに対して同じ分析を行った際に、類似の結果が得られることを示す必要があります。例えば、特定の行政請求データベースに対する分析から生成された証拠は、別の保険会社の請求データに対して再現された場合に強化される可能性があります。人口レベルの効果推定の文脈では、この属性はSir Austin Bradford Hillの因果関係の視点における一貫性と良く一致します。「異なる人物、異なる場所、状況、時間で繰り返し観察されているかどうか…偶然が説明であるか、真の危険が明らかにされたかどうかは、状況と観察の繰り返しによってのみ答えられることがある」[@hill_1965] 患者レベルの予測の文脈では、再現性は外部検証の価値を強調し、特定のデータベースでトレーニングされたモデルの性能を他のデータベースに適用した際の識別精度とキャリブレーションを観察することによって評価できる能力を示します。不同のデータベースに対して同一の分析が行われた場合でも一貫して類似の結果が得られる状況では、証拠が**一般化可能**であることにさらに確信を持つことができます。OHDSI研究ネットワークの重要な価値は、異なる人口、地理、およびデータキャプチャプロセスによって表現される多様性です。@madigan_2013は、効果推定値がデータの選択に敏感であることを示しました。各データソースには固有の制限と独自のバイアスがあり、それが個々の発見に対する信頼の制限となるという認識に基づいて、不均一なデータセット全体で類似したパターンが観察されれば、それだけでソース特有のバイアスだけが発見の説明にはならないという可能性が格段に減少します。米国、ヨーロッパ、アジアの複数の請求およびEHRデータベース全体で一貫した人口レベルの効果推定が示される場合、それらは医療介入に関するより広範な医療意思決定に影響を与える強力な証拠と認識されるべきです。

信頼できる証拠は**堅牢**であるべきであり、分析において主観的な選択肢に対して過度に敏感でないべきです。特定の研究に対して合理的とされる代替統計手法がある場合、異なる手法が同じ結果をもたらすことが確認できれば再保証となり、逆に不一致の結果が明らかになれば警戒のサインとなります。[@madigan2013design] 人口レベルの効果推定において、感度分析は、高レベルの研究デザインの選択（比較コホートデザインまたは自己制御ケースシリーズデザインを適用するかどうか）を含み、またデザイン内の分析検討（比較コホートフレームワーク内で共変数調整戦略として傾向スコアマッチング、層別化または重み付けを行うかどうか）に焦点を当てることができます。

最後に、しかしおそらく最も重要なのは、証拠が**キャリブレーションされている**べきであるということです。未知の質問に対する答えを生成するシステムがその性能を検証できない場合、そのシステムが生成する結果の解釈の文脈として測定および伝達できるべき特定の動作特性が備わっています。閉じたシステムは、95%信頼区間が95%の被覆確率を持つか、または10%の予測確率を持つコホートが10%の人口における観察された出来事の割合を持つなど、経験的に確立された特性を持つべきです。観察研究には必ずデザイン、方法、およびデータに関する仮定をテストする研究診断が付随しているべきです。これらの診断は、研究の妥当性に対する主な脅威（選択バイアス、交絡、および測定誤差）の評価に焦点を当てるべきです。否定的対照が観察研究における系統的誤差の特定および軽減に強力なツールとして示されています。[@schuemie_2016; @schuemie_2018; @schuemie_2018b]

## 証拠の質の理解

しかし、研究の結果が十分に信頼できるかどうかをどうやって知るのでしょうか？臨床現場で利用するために信頼できますか？規制上の意思決定においてはどうでしょうか？将来の研究の基礎として役立つでしょうか？新しい研究が発表または広範囲に配布されるたびに、読者はこれらの質問を考慮する必要があります。これは、その作業がランダム化比較試験、観察研究、または他のタイプの分析であっても同様です。 \index{evidence quality} \index{regulatory decision-making}

観察研究および「リアルワールドデータ」の使用に関してよく指摘される懸念の一つは、データの質の問題です。[@botsis2010secondary; @hersh2013caveats; @sherman2016real] よく指摘されるのは、観察研究で使用されるデータはもともと研究目的で収集されたものではなく、不完全または不正確なデータキャプチャや固有のバイアスの影響を受ける可能性があるという点です。これらの懸念は、データの質を測定、特徴付け、理想的には改善する方法に関する成長する研究領域を生み出しました。[@kahn2012pragmatic; @liaw2013towards; @weiskopf_2013] OHDSIコミュニティはこのような研究の強い支持者であり、コミュニティのメンバーはOMOP CDMおよびOHDSIネットワークでのデータ品質に関する多くの研究を主導および参加してきました。[@huser_multisite_2016; @kahn_transparent_2015; @callahan2017comparison; @yoon_2016] \index{data quality} \index{community}

過去10年間のこの分野の研究結果から明らかになったのは、データの質は完璧ではなく、決して完璧にはならないということです。この考えは、医療情報学の先駆者であるClem McDonald博士のこの引用にうまく表れています：

> データが医師の脳から医療記録に移動することで忠実度の損失が始まります。 \index{Clem McDonald}

したがって、コミュニティとして私たちは次の質問をしなければなりません - *不完全なデータを前提に、信頼できる証拠をどのように得ることができるか？*

答えは「証拠の質」を包括的に見ることであり、データから証拠へのプロセス全体を調べ、証拠生成プロセスを構成する各コンポーネントを特定し、各コンポーネントの質に対する信頼をどのように築くかを決定し、その過程で学んだことを透明に伝えることです。証拠の質は観察データの質だけでなく、観察分析で使用される方法、ソフトウェア、および臨床定義の妥当性も考慮に入れます。 \index{community} \index{reliable evidence}

次の章では、表 \@ref(tab:evidenceQuality) にリストされている証拠の質の4つのコンポーネントを探ります。

表: (\#tab:evidenceQuality) 証拠の質の4つのコンポーネント。

| 証拠の質のコンポーネント | 測定するもの                                                                                  |
|--------------------------------|-----------------------------------------------------------------------------------------------------------------------------|
| [データの質](DataQuality.html)         | データが合意された構造と規約に準拠した形で、完全にキャプチャされ信憑性のある値を持つかどうか？     |
| [臨床的妥当性](ClinicalValidity.html)       | 実施された分析が臨床的な意図とどの程度一致しているか？          |
| [ソフトウェアの妥当性](SoftwareValidity.html)       | データの変換および分析プロセスが意図した通りに機能するかどうか？        |
| [方法の妥当性](MethodValidity.html)       | データの強みと弱点を考慮した上で、その方法論が質問に適しているか？            |

## 証拠品質の伝達

証拠の質の重要な側面は、データから証拠への旅の過程で生じる不確実性を表現する能力です。証拠の質に関するOHDSIの取り組みの包括的な目標は、OHDSIによって生成された証拠が多くの点で不完全であるにもかかわらず、その弱点と強みが一貫して測定され、この情報が厳密でオープンな方法で伝達されたという自信を医療意思決定者に提供することです。
## まとめ

```{block2, type='rmdsummary'}
- 我々が生成するエビデンスは、**繰り返し可能** 、 **再現可能** 、 **複製可能** 、 **一般化可能** 、 **堅牢** 、そして**較正済み**であるべきです。

- エビデンスが信頼できるかどうかを判断する際には、データの質だけでなく、エビデンスの質を考慮するべきです：
    - データの質
    - 臨床的妥当性
    - ソフトウェアの妥当性
    - 手法の妥当性

- エビデンスを伝える際には、エビデンスの質に対する各種の挑戦から生じる不確実性を表現する必要があります。


```