文献情報
文献番号
202011017A
報告書区分
総括
研究課題名
指定難病患者データベース、小児慢性特定疾病児童等データベースと他の行政データベースとの連携についての研究
課題番号
H30-難治等(難)-一般-019
研究年度
令和2(2020)年度
研究代表者(所属機関)
野田 龍也(公立大学法人 奈良県立医科大学 医学部 公衆衛生学講座)
研究分担者(所属機関)
- 久保 慎一郎(奈良県立医科大学附属病院 看護部)
- 和田 隆志(国立大学法人 金沢大学 事務局)
- 原 章規(金沢大学 医薬保健研究域医学系)
- 古澤 嘉彦(武田薬品工業株式会社 ジャパンメディカルオフィス)
- 盛一 享徳(国立成育医療研究センター)
- 秋丸 裕司(国立研究開発法人 医薬基盤・健康・栄養研究所 難治性疾患研究開発・支援センター)
- 小松 雅代(大阪大学 大学院医学系研究科)
- 佐藤 大介(国立大学法人千葉大学 医学部附属病院)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 難治性疾患政策研究
研究開始年度
平成30(2018)年度
研究終了予定年度
令和2(2020)年度
研究費
8,000,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
我が国の保健医療分野のデータベース(DB)は、政府主導でDB間の連携等が推進されている。国が有する各種DBの中でも、レセプト情報・特定健診等情報データベース(NDB)は我が国の保険診療の悉皆調査であり、世界最大級のヘルスデータである。本研究は、難病施策への反映を念頭に、難病DB、小慢DBと他の行政データベース(NDB、介護DB等)との連結に関する利点や課題を技術的、法的、倫理的側面から整理し、連携に必要な解決策を具体的に提示することを目的としている。
研究方法
令和2年度は、昨年度に引き続き、DB結合に関する論点整理を進めるとともに、NDBを用いた全指定難病の患者数推計(集計用の名寄せ技術の刷新による再集計)、医療費シミュレーションを行った。
結果と考察
本研究においては、DB同士の結合(連結とも言う。)を、各DBに含まれる個別の単位(個人、施設など)を複数DB間で紐つけることと定義した。例えば、NDBの類似データベースであるKDBと介護DBとの結合では、人工栄養の種別(KDB事項)による院内外の療養場所(KDB及び介護DB事項)の分布が一元的に把握できることが明らかとなった。
DB結合の利点・問題点は、実際に結合されたデータを提供して初めて明らかになることが多いと考えられる。現時点において、NDBに関しては他のDBとの結合はガイドラインで禁止されており、今回研究班の課題でもない。一方、将来的な結合を見据え、ダミーデータ等を用いて、結合のシミュレーションを行うことはありえる選択肢であると考えられた。
複数DBの結合は、レコードリンケージ(同一人物のデータの結合)を想定することが多いが、レコードリンケージには名寄せの成功率に応じて諸段階があると考えるべきである。結合対象のDBに同一の個人識別番号が格納されていれば、一般的には名寄せは成功する。複数DBに同一の個人識別番号が格納されていない場合は、氏名、被保険者番号、疾患名など複数個の変数を組み合わせて1つの変数とし、結合を試みる方法がある(n情報ハッシュ)。また、レコードリンケージを目指さず、集団の値の相関や近似性を分析する生態学的研究もある。
現在、医療等IDが実装されつつあるが、実装前のデータはレコードリンケージができないため、そのようなDBにおいては、まずn情報ハッシュによるレコードリンケージを試み、対応できないほど技術的な課題が大きい場合、時間的な余裕がない場合は生態学的研究(集団相関研究)を試みることが望ましい。
n情報ハッシュを行う場合の問題点として、項目内容の差異や表記ゆれの問題がある。これらの問題は、「レコードリンケージのためのn情報ハッシュの生成」と「結合後の利用」の両面において最大級の阻害要因となることが予想される。基本的な医療情報である病名についても、例えば指定難病の告示病名と電子カルテ等で利用される病名の表記に多対多対応や対応なし等のズレが残存している状況である。
結合データの提供及び分析に際しては、結合データを適正・有効に利活用することを目的とした、データ収集・利用目的・第三者提供のルールと枠組みが必要であり、結合データの活用を希望する団体・個人に情報提供の場を設けるなどの対応が考えられる。
指定難病333疾患の患者数推計については、指定難病の病名が付与された患者を対象に一定の患者定義アルゴリズムに基づき、NDBを用いた患者集計の概算を算出した。ただし、ID0という名寄せIDを用いた前年度集計と比べてもID0v2という今回の新しい名寄せIDを用いた再集計は、病名によって衛生行政報告例に比べ過大・過少になる幅が大きいなど課題は変わらなかった。
難病医療費の公費部分の推計については、難病加算の算定されているレセプトについて、患者(id0)ごと・診療月ごとに、医科レセプト・DPCレセプト・調剤レセプトの点数を合計し、70歳以上と70歳未満の医療費分布(仮定1)から、階層区分ごとの人数割合(仮定2)別に公費の推計を行った。NDBから推計した年間公費総額は¥95,393,387,741となり、実績値である¥155,082,647,278を下回る結果となった。階層区分の分布についての仮定2の影響を見るために、特記区分にア~オ以外が記載されていた場合は、「一般」(区エ)とした場合についても公費の推計を行ったが、仮定2を採用した場合と比べ、大きく変化しなかった。
DB結合の利点・問題点は、実際に結合されたデータを提供して初めて明らかになることが多いと考えられる。現時点において、NDBに関しては他のDBとの結合はガイドラインで禁止されており、今回研究班の課題でもない。一方、将来的な結合を見据え、ダミーデータ等を用いて、結合のシミュレーションを行うことはありえる選択肢であると考えられた。
複数DBの結合は、レコードリンケージ(同一人物のデータの結合)を想定することが多いが、レコードリンケージには名寄せの成功率に応じて諸段階があると考えるべきである。結合対象のDBに同一の個人識別番号が格納されていれば、一般的には名寄せは成功する。複数DBに同一の個人識別番号が格納されていない場合は、氏名、被保険者番号、疾患名など複数個の変数を組み合わせて1つの変数とし、結合を試みる方法がある(n情報ハッシュ)。また、レコードリンケージを目指さず、集団の値の相関や近似性を分析する生態学的研究もある。
現在、医療等IDが実装されつつあるが、実装前のデータはレコードリンケージができないため、そのようなDBにおいては、まずn情報ハッシュによるレコードリンケージを試み、対応できないほど技術的な課題が大きい場合、時間的な余裕がない場合は生態学的研究(集団相関研究)を試みることが望ましい。
n情報ハッシュを行う場合の問題点として、項目内容の差異や表記ゆれの問題がある。これらの問題は、「レコードリンケージのためのn情報ハッシュの生成」と「結合後の利用」の両面において最大級の阻害要因となることが予想される。基本的な医療情報である病名についても、例えば指定難病の告示病名と電子カルテ等で利用される病名の表記に多対多対応や対応なし等のズレが残存している状況である。
結合データの提供及び分析に際しては、結合データを適正・有効に利活用することを目的とした、データ収集・利用目的・第三者提供のルールと枠組みが必要であり、結合データの活用を希望する団体・個人に情報提供の場を設けるなどの対応が考えられる。
指定難病333疾患の患者数推計については、指定難病の病名が付与された患者を対象に一定の患者定義アルゴリズムに基づき、NDBを用いた患者集計の概算を算出した。ただし、ID0という名寄せIDを用いた前年度集計と比べてもID0v2という今回の新しい名寄せIDを用いた再集計は、病名によって衛生行政報告例に比べ過大・過少になる幅が大きいなど課題は変わらなかった。
難病医療費の公費部分の推計については、難病加算の算定されているレセプトについて、患者(id0)ごと・診療月ごとに、医科レセプト・DPCレセプト・調剤レセプトの点数を合計し、70歳以上と70歳未満の医療費分布(仮定1)から、階層区分ごとの人数割合(仮定2)別に公費の推計を行った。NDBから推計した年間公費総額は¥95,393,387,741となり、実績値である¥155,082,647,278を下回る結果となった。階層区分の分布についての仮定2の影響を見るために、特記区分にア~オ以外が記載されていた場合は、「一般」(区エ)とした場合についても公費の推計を行ったが、仮定2を採用した場合と比べ、大きく変化しなかった。
結論
本年度は研究班の最終年度として、DB結合の利点、病名等の表記ゆれの問題点の整理、この問題点に関連して複数情報利用ハッシュの実現可能性、NDBをハブとする結合の提案、データベース医学特有の知識の共有する研修会の提案などを行った。また、分担研究として、ID0v2を用いた患者数推計と医療費シミュレーションを実施した。
公開日・更新日
公開日
2021-07-01
更新日
-