はじめに
「この研究に最も適したデータベースはどれなのか?」RWD(リアルワールドデータ)を活用した研究を進める中で、多くの製薬企業が直面する共通の悩みです。
近年、データベース研究(以下、DB研究)に利用できるデータベースは急速に増加・進化しています。データの種類や患者数、収録データ項目、関連する法律も日々更新され、データベース選定は複雑性を増しています。実際に「使い慣れた商用レセプト・DPCデータベースばかりを使っていて、電子カルテデータベースなどを十分検討できていない」「全ての要求を満たすデータベースは存在せず、研究ごとに一長一短があり、選定がとても難しい」といった声は少なくありません。
本記事では、日本国内で製薬企業が利用可能な主要データベースの種類と特徴を整理し、よくある落とし穴、そして適切な選定に向けた評価項目を紹介します。
主要データベース事業者の種類と特徴一覧
製薬企業がDB研究に利用できるデータベースを提供している企業として、下記のような事業者が存在します(代表的なデータベースを併記しています:2025年7月29日現在)。
- 独立行政法人医薬品医療機器総合機構(PMDA)
- メディカル・データ・ビジョン株式会社
- EBM Provider®︎
- 株式会社JMDC
- DeSCヘルスケア株式会社
- DeSC database
- 徳洲会インフォメーションシステム株式会社
- TXP
- 一般社団法人ライフデータイニシアティブ
- 千年カルテ
- TOPPANホールディングス株式会社
- 日本システム技術株式会社
- 株式会社4DIN
- 4DIN Research Network
※近年はPHR(Personal Health Record)やPRO(Patient Reported Outcome)等患者情報由来のデータベースも増えていますが、今回は含めていません。
主要データベースは、大きく以下の3つに分類できます。
電子カルテ・レセプト/DPC・レジストリの分類と比較
分類 | データベース例 | 項目情報 |
レセプト/DPC(保険請求) 患者が受けた保険診療に関する請求、 |
・JMDC
・MDV |
レセプト/DPC情報に基づく、 |
電子カルテ 複数の医療機関からレセプト、 |
・RWD
・TXP Medical |
・患者情報 |
レジストリ 特定の疾患患者の詳細データを |
・SCRUM-Japan Registry |
・患者情報 |
上記のようなデータベースには、
- 商用データベース
- アカデミア保有データベース
- 公的データベース
が含まれていますが、製薬企業の利用のしやすさという観点から、実際にはほとんどのケースにおいて、商用データベースが利用されています。
選定時のよくある3つの落とし穴
近年利用が増えてきている商用電子カルテデータベースに関連したデータベース選定における落とし穴をいくつか紹介します。
- 使い慣れたレセプト/DPCでデータベースを前提に研究のコンセプトを立案して進めるため、他のデータベースを活用する機会を逃してしまう。
- 実は電子カルテデータベースを使うことでより臨床医に響くインパクトのある研究ができたという声も聞きます。
- 電子カルテテキストデータの取得可能性と品質について、想定を見誤る。
- テキストがあることや入手可能なテキストのN数が分かっていても、臨床現場における業務フロー・テキスト入力の実態への解像度が浅いと、想定していた形でテキストデータを利用できないことがあります。
- 医療機関ごとのデータ入力方針の違いを見落とす。
- 非構造化データだけでなく、構造化データでも落とし穴があることがあります。よくあるのは、細菌検査結果について、定性・定量含めて医療機関ごとに格納箇所/入力形式の違いがあることを見逃すケースです。入手状況だけでなく、前処理(クレンジング)の有無や方針・実態を確認する必要があります。
標準化されたレセプト/DPCデータと異なり、電子カルテデータは利用できるデータの広がりと深さがある点がメリットであるのに対して、考慮すべき点も複雑化しています。
データベース比較の具体的な評価項目
では、どのような観点でデータベースを比較すればよいのでしょうか?以下はデータックが実際に製薬企業顧客のデータベース選定を支援するときに利用している評価項目です。
データベース選定における比較軸
要件 | NDB特別抽出 | NDB-β | 商用健保データ | 商用国保/後期高齢者/健保データ | 商用DPCデータ |
悉皆性 | |||||
時系列追跡 | |||||
日付粒度 | |||||
使用量(薬剤数量・回数等) | |||||
医療機関情報 | |||||
地域 | |||||
審査頻度 | |||||
データ期間 | |||||
登録患者数 | |||||
検査結果Aの取得可能性 | |||||
①病名B(確定)が 付与された患者数 |
|||||
②病名B and 治療薬C 使用歴のある患者数 |
|||||
タイムライン | |||||
コスト |
要件を表形式で整理し、候補データベースを横並びで比較することで、適切な選定が可能になります。また、最近では複数のデータベースを組み合わせた研究/活用方法も注目されています。
現在、こちらの「データベース比較軸シート」を無料配布しています!以下のボタンより、実際の記入例や評価例等の入ったファイルをダウンロードいただけますので、ご興味のある方は、ぜひこの機会に記事と合わせてご活用ください。
> データベース比較軸シートをダウンロードする(Excel)
さいごに
データベース選定は、単なる「データソースの選択」ではありません。
製薬企業におけるデータベース選定では、データベースによって実行可能な研究コンセプトが変わります。そこで重要なのは、
- 研究戦略におけるObjective
- 臨床現場で必要な行動変容
- キーメッセージ
- 研究コンセプト
- 研究デザイン/患者定義/アウトカム定義
といった一連の流れを深く理解した上で研究デザインを設計し、総合的に評価した上で意思決定を行うことです。
RWDを用いた研究がより価値ある成果につながるよう、戦略と研究目的にフィットしたデータベース選定を進めていきましょう。
データックでは、研究戦略を理解し、候補データベースごとに実現可能なキーメッセージや研究コンセプトを理解した上で、「実施したい研究に適したデータベース選定」を支援しています。無料でのご相談も受け付けておりますので、お困りごとのある方はお問い合わせフォームよりご連絡ください。