RWDを用いた研究におけるデータベースの選び方

はじめに
データベースの特徴
最後に
参考書籍
引用

はじめに

RWDを用いた研究を実施するには、明らかにしたいリサーチクエスチョンに適切なデータベースを選択する必要があります。

そこで今回は、各データベースが持つ特徴及びデータベースの選択に関する留意事項を解説します。

本記事がデータベース選択の参考になればと思っています。

データベースの特徴

審査支払機関基盤のデータベース

審査支払機関は、保険に加入する患者に掛かった医療費について保険者から依頼を受け、レセプト内容の審査と保険者から払い込まれた医療費の保険医療機関への支払を行っています。

審査支払機関には、以下の2種類があります。

国民健康保険団体連合会（国保連）
社会保険診療報酬支払基金（支払基金）

この審査支払機関が保有するレセプトデータを収集しているデータベース（審査支払機関基盤のデータベース）には、レセプトデータ以外のデータ種別は基本的に含まれません。

医療機関で作成されたレセプトは、各被保険者が加入する保険の種類に応じて、国保連か支払基金のいずれかに提出されます。したがって、被保険者番号が変わらない（被保険者が加入する保険が変わらない）限りは、どこの医療機関を受診していても、施設横断的な追跡をすることができます。

審査支払機関基盤のデータベースに含まれる患者の特徴は、収集元が国保連か支払基金か（あるいはその両方か）で異なります。これは、それぞれが審査支払業務を行う保険の種類が異なることに起因しています。そのため、このデータベースを利用する際には、保険ごとに含まれる集団の特徴が異なるということは理解しておかなければなりません。

国保連が取り扱うレセプト：国民健康保険や後期高齢者医療制度など
支払基金が取り扱うレセプト：組合管掌健康保険や全国保険協会（協会けんぽ）、各種共済組合保険など

【審査支払基盤のデータベースの代表的な例】

匿名レセプト情報・匿名特定健診等情報データベース（NDB）

NDBは国保連と支払基金の両方から収集されているため、生活保護対象者などの一部のレセプトを除き、ほぼ全国民のレセプトが含まれています。

NDBの利点とハードルについては、以前の記事「NDBではどんな研究ができる？編集部による論文調査結果」もご覧ください。

＜NDBの利点＞

悉皆性
- 一部を除き、全国民を対象としたデータベース
症例追跡
- 医療機関をまたいでの症例追跡が可能

＜NDBの欠点＞

患者重症度がデータベースに含まれない
アウトカム指標が少ない
病名情報の妥当性が担保されていない
保険加入者台帳のデータがない
患者の居住地に関する情報は都道府県のみ
他のデータベースとの突合は一切できない

＜NDBデータでできる研究内容＞

悉皆性を活かした、疾病の有病率調査や手術・処置・検査・使用薬剤などのプラクティスパターン分析に向いている。
複数の医療機関をまたいでの受診を追跡できるため、受療行動の記述は可能。

＜NDBデータでは難しい研究内容＞

治療の効果比較研究
- 重症度の指標が少なく、交絡の調整が難しいため。
  - 効果比較研究は、後述するDPCを選択するのが適切（様式1の診療情報を含むため）
- NDBで取れる交絡因子は、年齢、性別、病名、投薬、検査・処置・手術の実施の有無ぐらい。

保険者基盤のデータベース

保険者基盤のデータベースには、以下のデータが含まれています。

保険者が保有するレセプトデータ
保険者がもつ加入者台帳情報
（例：保険加入日、退会日、家族ID、被保険者本人か扶養家族）

また、国民健康保険の保険者は自治体となるので、その自治体がもつ様々な住民の情報（税金、母子保健、ワクチン接種など）とレセプトデータを各自治体の中でリンゲージすることも可能です。

保険者基盤のデータベースの場合も、被保険者がどこの医療機関を受診したとしても、当該保険組合に加入している限り（同一の被保険者番号）、施設横断的な追跡が可能です。

このデータベースを利用する際には、その保険者が運営する保険の種類によって集団の特徴が異なるということを理解しておく必要があります。

【組合管掌健康保険のデータに含まれる集団】

雇用されている人とその扶養家族が中心となるため、年齢分布が労働人口に偏るのが特徴（例：JMDC）

【国民健康保険のデータに含まれる集団】

人口分布に照らして65歳以上75歳未満の割合が大きくなるのが特徴（例：KDB）
- 65歳未満は国民健康保険以外へ加入する場合が多く、75歳以上は後期高齢者医療制度に移行するため

【後期高齢者医療制度のデータに含まれる集団】

75歳以上のみ

保険者基盤のデータベースの例として、株式会社JMDCが提供している日本の診療データベース（JMDC DB）の特徴を以下に列挙します。

＜JMDC DBの特徴＞

20-65歳のデータが最も多い（男>女）
子供のデータもある
家族IDがある
65歳以上のデータはほとんどない
数年の経過を追跡可能（重篤な障害などを負って保険から離脱しない限り）
健診データを含む

＜JMDC DBの利点＞

外来レセプト、外来処方、調剤薬局データが存在する
病院を変更しても追跡可能
特定健診データが存在する
保険者台帳が存在する
家族IDが存在する（例えば、妊産婦と児を関連つけることも可能）

＜JMDC DBの限界＞

DPCの様式1情報がない（重症度指標がない）
通常診療の検査値がない
高齢者がいない
SES（social economic status）の高い集団に偏っている

＜JMDC DBデータの特性を活かす研究＞

保険者台帳の利用
健診データの利用
家族IDの利用（妊娠中のXXが子に与える影響、家族内集積に興味がある疾患）
比較的稀な疾患・状態
小児の疾患
成人の疾患
曝露〜5年程度でアウトカムが発生する疾患

医療機関基盤のデータベース

医療機関基盤のデータベースには、以下のデータが含まれています。

レセプトデータ
DPCデータ
病院情報データ　など

同医療機関内のデータであればデータ種別を問わずリンケージできていることが多いのですが、一般的に異なる医療機関とのデータリンケージはされてません。そのため、ある患者が当該医療機関内で受けた診療情報については追跡できますが、施設横断的な追跡はできません。

医療機関基盤のデータベースに含まれる患者は、収集元の医療機関の特徴に依存します。このデータベースを利用する際には、医療機関の特徴に応じて受診する患者層も変化するということを理解しておく必要があります。

医療機関の施設規模（クリニックか病院か）
急性期病院か否か
大学病院か市中病院か
何かの治療に特化した施設か
特別な病床（結核病床、ホスピスなど）を有するか

など

【医療機関基盤のデータベースの代表的な例】

厚生労働省が全国のDPC参加病院から収集しているDPCデータ
厚生労働省およびPMDAが運営・管理するMID‐NET®

MID-NET®については、過去の記事「MID-NET ®（Medical Information Database Network）を用いたデータベース（DB）研究一覧と研究事例の紹介」「MID-NET®のデータの品質保証の取り組み」をご覧ください。

ここではDPCデータの特徴を以下に列挙します。

＜DPCデータの利点＞

大規模
- サブグループに分けても十分なサンプル数を確保できる
- アウトカムが極めて稀な研究が実施可能
実臨床を反映している
- 方法論や倫理的にランダム化が不可能な臨床課題を解決できる
- NDBやJMDC DBに含まれない各種の臨床情報が様式1に含まれているので、これらを用いたリスク調整が可能

＜DPCデータの欠点＞

DPCデータの欠点
- 患者が病院を変えると追跡できない
- 長期生存の追跡には向いていない
バイタルや検査結果データがない
- リスク調整がいつも十分にできるわけではない
診断病名のValidityが中程度
- 主要な病名（心不全など）の感度78.9%、特異度93.2%¹⁾

データベースの選び方

データベースを選択する前に、これまでに解説してきたデータベースの一般的な概要を把握します。その上で、自身の研究内容に照らし合わせながら適切性を判断していき、最終的に最適なデータベースを選択します。データベースを選択する際に考慮すべきポイントとして、国際薬剤疫学会の「Guidelines for good database selection and use in pharmacoepidemiology research」²⁾では、以下の6つの領域に関する留意点を紹介しています。

Selection of a database（データベースの選択）
Use of multiple data resources（複数のデータソース利用）
Extraction and analysis of the study population（対象集団データ抽出と解析）
Privacy and security（プライバシーとセキュリティ）
Quality and validation procedures and（品質バリデーション手順）
Documentation（文書作成）

特に「1. Selection of a database」では、確認すべき点として、以下の5点を挙げています。

Population covered
- そのデータベースには、サンプルサイズ、カバー率、代表性の観点から適切な人口が含まれているか確認する。
Capture of study variables
- 研究に必要な変数（曝露、アウトカム、共変量）が十分な情報粒度で、解析可能なデータとして利用できるか確認する。
Continuous and consistent data capture
- 研究観察期間中に、個々の患者または集団全体のデータ収集に中断や変化はないか確認する。
- データベースに登録されている患者間で、データの収集方法に一貫性はあるか確認する。
Record duration and data latency
- 患者ごとに記録されている期間の長さや新しいデータが格納されるまでの時間などを確認する。
Database expertise
- そのデータベースを使用するために必要な専門知識（専門人材）は、社内または社外で確保できるか確認する。

このガイドラインでは欧米の例をもとに記載されているため、データベースを選択する際には、以下の資料もご確認ください。

最後に

どのようなデータベースを使用する場合であっても、そのデータが生成された背景に関する情報を確認し、データの特性を理解しなければなりません。

その上で、研究テーマにあったデータベースを選択してください。
※株式会社データックでは、データベースに関するご相談も受け付けております。ご相談をご希望の方は、お問い合わせフォームよりご連絡ください。

参考書籍

佐藤俊哉, 山口拓洋他「これからの薬剤疫学ーリアルワールドデータからエビデンスを創るー」朝倉書店 2021

引用

Validity of diagnoses, procedures, and laboratory data in Japanese administrative data. J Epidemiol. 2017;27(10):476-482. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5602797/
Guidelines for good database selection and use in pharmacoepidemiology research. Pharmacoepidemiol Drug Saf. 2012 Jan;21(1):1-10.
https://onlinelibrary.wiley.com/doi/10.1002/pds.2229