はじめに
近年、がん領域の臨床研究・医薬品開発においても、リアルワールドデータ(RWD)の利活用が進んでいます。1)特にアメリカではRWDの整備が進み、実際の臨床研究での利用においても日本を先行しています。2), 3)
これまでアメリカでは、がん研究におけるRWDのデータソースとして Surveillance, Epidemiology, and End Results program (SEER)およびNational Program of Cancer Registries (NPCR)がよく使用されてきました。近年は、電子カルテがその急速的な普及とデータマイニング技術の進歩によって、重要な情報源となってきています。特に、最近のがん研究ではFlatiron Health社の提供する電子カルテ由来のデータベースを利用するものが増えています。
今回は、これら3つのデータベースを比較した文献(Xinran Maらの報告4))を参考にして、その特徴や違いを紹介します。
電子カルテ由来データベースとレジストリの違い
がん領域研究で使われるRWDとして、患者レジストリ(疾患登録データ)や電子カルテ由来のデータベースがあります。4)
患者レジストリとは、ある特定の疾患に罹患した患者について、
- 患者数や分布の把握
- 臨床所見、治療内容、予後などの疾患データ収集
- 治験・臨床研究へのリクルート
といった目的のために構築されたものです。5)
RWDが注目される以前から整備が進められ、医薬品等の治験・臨床研究などに用いられています。一般に特定の疾患ごとに作成され、その研究目的に必要な項目が一定の登録ルールの元で収集されるため、研究に必要なアウトカムが収集されることが多いと考えられます。6)
その半面、レジストリの構築や運用のコストが高く、また、データを入力する医師等の負担も大きくなりがちです。
一方、電子カルテ由来のデータベースは、電子カルテの普及および医療ICTの発展により近年急速に整備が進みました。処方・処置・病名・症状など日常診療を反映した大量で詳細な医療情報が時系列で得られます。日常的に使用する電子カルテから収集するため、導入した医療機関の全患者を対象にでき、網羅性が高いデータとなります。しかし、構造化されていないテキストデータも多く含まれ、実際に研究に用いるには構造化やクレンジングが必要なケースが多くなります。6)
Flatiron Health/SEER/NPCR の比較
Xinran Maらの報告4)を基に、3つのデータベースの特徴をまとめました。
概要
Flatiron Health database
Flatiron Health社は、がん領域に特化した電子カルテである「OncoEMR®」を開発運用し、全米の医療機関に提供しています。また、電子カルテから集めた膨大な臨床データを構造化して研究開発用のデータベースを構築しています。全米50州の280以上のがんセンターから得た、220万人を超える患者の記録が含まれています。
SEER
アメリカのNational Cancer Institute (NCI)によるレジストリのプログラムです。1973年より開始され、現在、米国の人口の約34.6%をカバーする人口ベースのがん登録から、がんの発生率と生存率のデータを収集して公開しています。SEERは、前年11月のデータ提出に基づいて、毎年春に新しい研究データを公表しています。また、様々ながんレジストリのデータだけでなく、がん統計の分析と解釈のための専門的な手法とソフトウェアを提供しています。
NPCR
NPCRは、疾病管理予防センター (CDC)による全米におけるがん登録プログラムです。1992年に成立したがん登録修正法により、SEERプログラムを全米に拡大する形で組織されました。46の州を含む全米のがん人口の97%をカバーしています。NPCRは、資金提供、技術支援、およびデータ収集および処理用のソフトウェアの開発を通じて、医療機関などによるデータ収集をサポートしています。
データベースの主な特徴の比較
SEER | NPCR | Flatiron Health | |
データの取得に関して | |||
データソース |
|
|
|
データ収集のアプローチ |
|
|
|
データの分類・整理方法 |
|
|
|
公開までの期間 | 2年 | 2年 | 通常30日後 |
データの登録内容について | |||
人口統計 | 年齢、性別、人種、民族、保険の 種類、地理的位置 |
年齢、人種、民族、地理的位置 | 年齢、人種、民族、保険の種類、 地理的位置 |
がんの詳細 | 初診日、原発腫瘍部位、限定的な バイオマーカー情報、診断時の 形態・組織、性状、側方性、 ステージ |
初診日、原発腫瘍部位、限定的な バイオマーカー情報、診断時の 形態・組織、ステージ |
初診日、原発腫瘍部位、診断時の 形態・組織・ステージ、標準的 バイオマーカー情報、進行・転移 診断日、転移部位 |
治療法 |
初診時の最初の治療方針
|
初診時の最初の治療方針
|
進行性転移性疾患の診断後に
|
死亡率 | 原因別の死亡率 | 死亡率 | 死亡率、Real world progression (rwP)7) |
がん種ごとの患者比較
Xinran Maらは、これら3つのデータベースについて詳細な比較を行っています。
比較に用いたがん患者の総数は
- Flatiron Health database: 201,570件
- SEER: 1,719,277件
- NPCR: 6,308,342件
であり、19のがん種について分析しています。
主ながん種について、比較に用いた登録患者数を以下に示します。SEER、NPCRは2011年1月1日から2016年12月31日までに診断された悪性症例、Flatiron Healthは2011年1月1日から2019年5月31日までに記録されたがん患者数となります。
全患者数 | ステージIVの患者数 | |||||||
SEER | NPCR | Flatiron Health | SEER | NPCR | Flatiron Health | |||
2011~2016 | 2011~2016 | 2011~2016 | 2011~2019 | 2011~2016 | 2011~2016 | 2011~2016 | 2011~2019 | |
膀胱がん | 119,010 | 453,393 | 5,197 | 7,779 | 10,558 | 24,531 | 1,841 | 2,729 |
転移性乳がん | 388,064 | 1,379,999 | 10,219 | 19,890 | 22,092 | 81,977 | 4,534 | 6,236 |
初期の乳がん | 388,064 | 1,379,999 | 2,253 | 3,030 | – | – | – | – |
大腸がん | 159,140 | 569,605 | 15,137 | 21,914 | 30,852 | 120,049 | 8,153 | 12,613 |
多発性骨髄腫 | 38,519 | 139,422 | 6,927 | 9,696 | – | – | – | – |
非小細胞性肺がん | 223,742 | 903,355 | 38,782 | 55,554 | 104,816 | 435,937 | 24,147 | 34,530 |
Flatiron Health databaseは、全患者数ではSEER, NPCRよりかなり少ないものの、ステージⅣや多発性骨髄腫では比較的割合は高く、それなりの患者数がいることが分かります。
膀胱がん患者比較
例として膀胱がんについて比較しました。人口統計などの比較結果は以下の通りです。図はXinran Maらの文献4)をもとに作成しました。
*国勢調査の値は、アメリカ合衆国国勢調査局より取得。
がんのステージや転移の状況は各データベースによって違いが見られるため、行う研究によって適切なデータベースが変わることが予想されます。
Xinran Maらの論文には、他のがん種についても比較結果を掲載されていますので、興味のある方はご覧ください。
比較結果のまとめ
3つのデータベースについて全体的な比較結果をまとめると次のようになります。
- 年齢別分布では、Flatiron Health社データで80歳以上の患者の割合が全体的に少ない。これは、患者レジストリ(SEER, NPCR)では、診療情報だけでなく、死亡報告書や検死報告書からのデータも含まれていることが一因と考えられる。
- 地域分布では、NPCRのデータが国勢調査の地域人口分布と最もよく一致している。Flatiron Health社データは次に近いものの、南部にやや偏りがあり、西部が少なくなっている。SEERのデータは、その設計上、最も乖離していて、特に西部が多い。
- 人種・民族の分布については、Flatiron Health社データで不明の割合が多い。SEER、NPCRでは一定レベルの完全性を達成するように義務付けされていることから、これらでは不明の割合が少ないものと考えられる。
- がんのステージ情報では、Flatiron Health社データで不明の割合が多い。Flatiron Health社データは、電子カルテ由来であり、ステージ情報の多くが構造化されていないテキストデータに記録される。これに対して、SEERではがん登録担当者がルールに従って入力するため、この差はデータ収集法の違いに起因している。
最後に
今回は、電子カルテ由来と患者レジストリ由来のデータベースの比較を行いました。全体的には類似しており、どちらも研究対象として十分信頼できるデータモデルになると考えられます。一方で、こまかな部分では違いがみられました。その原因として、データソースやデータ取得ルール・登録方針の違いによるもの、がん種による患者特性違いに起因するものなどの要因が考えられます。今後、日本国内で構築が進むRWDを用いた研究を行う際も、データベース間の違いを考慮して研究を実施したり、研究結果を解釈する必要がでてくるでしょう。
※データックでは、データベースに関するご相談を受け付けています。お問い合わせフォームよりご連絡ください。
引用
- 東郷 香苗、 川松 真也ら「3.医薬品開発におけるリアルワールドデータ活用への期待 ―製薬企業の視点より―」 薬剤疫学 2019 24巻 1号 p.19-30 https://doi.org/10.3820/jjpe.24.19, https://www.jstage.jst.go.jp/article/jjpe/24/1/24_24.19/_article/-char/ja
- 増元 浩、松木 大造ら 「日米における疾患レジストリの臨床試験および新薬承認申請への利用比較」 レギュラトリーサイエンス学会誌 2019 9巻 2号 p.51-67 https://www.jstage.jst.go.jp/article/rsmp/9/2/9_51/_article/-char/ja
- 祖父江 友孝 「わが国におけるがん登録の現状と今後の方向性–がん対策の情報基盤としての役割 」 保健医療科学 2008-12 57(4) p.347-350 https://warp.da.ndl.go.jp/info:ndljp/pid/240916/www.niph.go.jp/kosyu/2008/200857040011.pdf
- Xinran Ma, Lura Long, Sharon Moon, Blythe J.S. Adamson, Shrujal S. Baxi, Comparison of Population Characteristics in Real-World Clinical Oncology Databases in the US: Flatiron Health, SEER, and NPCR, medRxiv 2020 https://www.medrxiv.org/content/10.1101/2020.03.16.20037143v2.full
- 酒井 良子 「レジストリとその利活用 その1」 社会薬学 2018 37巻 2号 p.156-158 https://www.jstage.jst.go.jp/article/jjsp/37/2/37_156/_article/-char/ja
- 日本製薬工業協会 医薬品評価委員会 臨床評価部会 2020年度タスクフォース1 「製薬企業における疾患レジストリの利活用と患者参画型レジストリの動向」2021 https://www.jpma.or.jp/information/evaluation/results/allotment/lofurc0000005itt-att/bd_rwd_202105-3.pdf
- Griffith SD, Tucker M, Bowser B et al. Generating real-world tumor burden endpoints from electronic health record data: comparison of RECIST, radiology-anchored, and clinician-anchored approaches for abstracting real-world progression in non-small cell lung cancer. Adv Ther. 2019; 36, 2122-2136. https://pubmed.ncbi.nlm.nih.gov/31140124/