DB研究-基礎-

病院データベースの打ち切りはどう定義すべき?

この記事は約5分で読めます。

死亡情報の欠落が招く「バイアス」の正体と実務的な解決策

はじめに

リアルワールドデータ(RWD)を用いたデータベース研究では、打ち切り(Censoring)の定義次第では、結果に重大なバイアスが生じることがあります。とくに実務で悩ましいのが、競合イベント(死亡など)の発生が確認できない患者の扱いです。こうした患者の打ち切りの定義について、

  • データ利用可能期間の終了日で打ち切る(データ利用可能期間の終了日まで生存していたとみなす)
  • 最終受診日で打ち切る

という代表的なやり方として2つの方法があります。この定義次第で解析結果が変わります。バイアスを最小化するために、適切な打ち切りの定義を慎重に選ぶことが重要です。

本記事では、Hsu ら(2024)の研究をもとに、死亡情報が欠落している場合に、「打ち切り」の定義の違いが解析結果にどのようなバイアスをもたらすのかを解説します。その上で、日本における事例として Tsutsué et al. (2020) の研究を紹介します。

論文の紹介:死亡情報欠損時に打ち切りの定義によって発生しうるバイアス

Hsuらのシミュレーション研究は、「データ利用可能期間の終了日で打ち切る」「最終受診日で打ち切る」という2つの打ち切りの定義について、「死亡情報が比較的よく捕捉される状況」から「死亡情報がかなり欠損する状況」まで複数のシナリオを用意して、中央生存期間(Median OS)の推定に与える影響を明らかにしました。

  • データ利用可能期間の終了日で打ち切る定義
    • 死亡情報が欠損している状況で、データ利用可能期間の終了日まで生存していると仮定して打ち切ると、実際には死亡している期間を「生存」とカウントしてしまう「生存時間の誤分類:misclassified survival time」が発生し、Median OSを過大評価します。
  • 最終受診日で打ち切る定義
    • 最終受診日で一律に打ち切ると、その後も生存し続けている患者の「リスク期間」を不当に短く見積もることになり、死亡情報の欠損割合にもよりますが、Median OSを過小評価する可能性があります。
  • 死亡情報の欠損25%を境界として異なる傾向
    • 本研究のシミュレーションでは、死亡情報の欠損割合の高さ(欠損が25-30%以上)が深刻な場合、「データ利用可能期間の終了日」での打ち切りは最終受診日で打ち切る定義によるOSの過小評価よりも、大量の「misclassified survival time」によって過大評価のバイアスが大きくなります。そのため、最終受診日で打ち切る方が、データ利用可能期間の終了日で打ち切るよりもバイアスが小さくなることが示唆されました。

データベース研究実務に活かせるポイント

本論文を踏まえ、DPCデータや電子カルテデータを用いた研究実務で押さえておくべきポイントを整理します。

  • DBの特性に応じて打ち切り方を判断する
    • 使用するDBの死亡捕捉率や死亡定義の精度(病院外死亡が追えるか等)によって、最終受診日とデータ利用可能期間の終了日のどちらで打ち切るべきかを慎重に判断する必要があります。
  • 感度分析を事前に設計する
    • プロトコルの段階で感度分析として、「最終受診日で打ち切る定義」と「データ利用可能期間の終了日で打ち切る定義」の両方のシナリオで生存曲線を描き、結果の頑健性を検証するプロセスを組み込むことも有用です。

実際に日本のメディカル・データ・ビジョン(MDV)のデータベースを用いたTsutsuéらのびまん性大細胞型B細胞リンパ腫(DLBCL)に関する研究では、データベース上の制約を考慮したアプローチを採用しています 。

この研究では、「最終受診日で打ち切る定義」を採用しています。死亡記録がない患者は、データ利用可能期間の終了日まで生存しているとみなすのではなく、それぞれの「最後の請求日 」の時点で打ち切ります。著者らは、死亡データが病院の退院記録からしか得られないため、全生存期間(OS)の結果にバイアスが存在する可能性について研究の限界として述べています。しかし、欠損は特定の要因に依存しない「ランダムなもの」と考えられるため、治療ごとのOSを比較する上では、十分に有効な知見であると結論づけています。

さいごに

データベース研究では、データの限界を正しく理解したうえで解析を行うことが大切です。Hsu ら(2024)が示しているように、死亡情報の欠落や打ち切り定義によって生じるバイアスを理解し、あわせて各データベースの特性を踏まえたうえで、適切な打ち切り定義を選択していく必要があります。

参考論文

  1. Tsutsué S, Tobinai K, Yi J, Crawford B. Nationwide claims database analysis of treatment patterns, costs and survival of Japanese patients with diffuse large B-cell lymphoma. PLoS ONE. 2020;15(8):e0237509.
  2. Hsu WC, Crowley A, Parzynski CS. The impact of different censoring methods for analyzing survival using real-world data with linked mortality information: a simulation study. BMC Med Res Methodol. 2024;24:203. 

株式会社 データック

RWD Navi(リアルワールドデータ・ナビ)はリアルワールドデータの価値を最大化することを目的としたメディアです。運営者である株式会社データックは「医学の知の創出を加速する」をビジョンに掲げ、臨床家と疫学者による研究提案で最適な意思決定を支援します。

※本メディアでは、特定の薬剤を含む臨床データを客観的に分析した記事を掲載することがあります。これらはすべて学術的・研究的な目的に基づいたものであり、特定の製品や企業を評価・批判する意図は一切ありません。

株式会社 データックをフォローする
シェアする
株式会社 データックをフォローする
RWD Navi
株式会社 データック
RWD Navi 運営者情報

RWD Navi(リアルワールドデータ・ナビ)はリアルワールドデータの価値を最大化することを目的としたメディアです。運営者である株式会社データックは「医学の知の創出を加速する」をビジョンに掲げ、臨床家と疫学者による研究提案で最適な意思決定を支援します。

※本メディアでは、特定の薬剤を含む臨床データを客観的に分析した記事を掲載することがあります。これらはすべて学術的・研究的な目的に基づいたものであり、特定の製品や企業を評価・批判する意図は一切ありません。

DATACKコーポレートサイトを見る

タイトルとURLをコピーしました