文献情報
文献番号
202501018A
報告書区分
総括
研究課題名
NDBのユーザビリティ向上を通じてクラウド上でのデータ二次利用を推進するための研究
研究課題名(英字)
-
課題番号
25AA2002
研究年度
令和7(2025)年度
研究代表者(所属機関)
明神 大也(浜松医科大学 医学部 健康社会医学講座)
研究分担者(所属機関)
- 村松 圭司(千葉大学医学部附属病院 次世代医療構想センター)
- 森 由希子(京都大学医学部附属病院 医療情報企画部)
- 牧戸 香詠子(東京大学 大学院医学系研究科生物統計情報学講座)
- 西岡 祐一(奈良県立医科大学 公衆衛生学講座)
- 松居 宏樹(東京大学大学院医学系研究科公共健康医学専攻臨床疫学・経済学)
- 柏木 公一(国立健康危機管理研究機構 国立看護大学校)
- 杉山 雄大(国立健康危機管理研究機構 国立国際医療研究所 糖尿病情報センター)
研究区分
厚生労働行政推進調査事業費補助金 行政政策研究分野 政策科学総合研究(政策科学推進研究)
研究開始年度
令和7(2025)年度
研究終了予定年度
令和8(2026)年度
研究費
10,560,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
NDBは、レセプト情報や特定健診・特定保健指導情報等を格納した公的データベースであり、第三者提供の法制化、他データとの連結解析、死亡情報等の収載拡大が進められている。また、二次利用ポータルやHICの運用開始により、データの迅速提供と利活用促進に向けた環境整備が進んでいる。一方で、HICではプリセットデータがCSV形式で提供されることや、解析環境内でコマンドライン操作が必要であることなど、ユーザビリティに課題が残る。本研究では、ユースケース調査、プリセットデータ改善提案、クラウド環境の操作性への提言、技術供与等を通じて、NDB/HICのユーザビリティを向上させ、医療等情報の二次利用を推進することを目的とした。
研究方法
本研究では、NDB-βのオンプレミス環境での提供申出と、通年パネルデータセットおよびNDB-βのHIC上での利用申請を行ったうえで、6つの研究を実施した。第一に、二次利用ポータルで公開されている過去の提供申出成果物のうち、論文または厚労科研報告書を対象に、利用目的、必要データ項目、対象疾患等を整理し、HICで提供可能なデータ形式に基づくユースケース分類を行った。第二に、HIC/NDBガイドラインおよび利用者マニュアルに従い、HIC解析環境、二次利用ポータル、関連ドキュメントのユーザビリティを確認した。第三に、大規模時系列医療データを疫学研究で扱いやすくするため、解析単位、観察タイムライン、マスタ整備を軸とした標準化SQLデータハンドリングフレームワークを提示した。第四に、HIC内のAmazon S3、Parquet、DuckDBを組み合わせたクラウド分析基盤を構築し、実用性を検証した。第五に、韓国、フィンランド、スウェーデン、フランスにおける医療関連データの利活用・提供状況を調査した。第六に、NDB研究等で利用されるマスタ情報を二次利用ポータル等で共有するため、研究班で用いているマスタを整理・提供した。
結果と考察
NDB-βのオンプレミス環境での提供承諾、および通年パネルデータセットとNDB-βのHIC上での利用承諾を得た。
第一のユースケース調査では、論文47件、報告書16件を対象に、利用目的や必要データ項目等を整理した。論文では処方動向、介入効果、疾患疫学、地域差分析、報告書では地域差分析、医療提供体制調査、処方動向が多かった。HICで提供可能なデータ形式に基づく分類では、論文24件、報告書6件が通年パネルデータセット、トライアルデータセット、NDB-βのいずれかで実施可能と考えられた。一方、希少疾患や詳細な層別解析を伴う研究では特別抽出が妥当と考えられた。通年パネルデータセットを5年以上に拡張することで、既存研究の一定割合をHICで提供可能な形式により代替できる可能性が示された。
第二のユーザビリティテストでは、解析環境、二次利用ポータル、関連ドキュメントに改善余地のある課題を整理し、改善提案を一覧化した。NDB提供申出書様式の別添8は項目数が多く、研究者にとって操作が難しいため、一定条件下での記載テンプレートを作成した。また、入力方式についても改善余地があると考えられた。
第三の標準化SQLデータハンドリングフレームワークでは、「解析単位」「時間的アンカー」「観察ウィンドウ」「マスタテーブル整備」を基盤概念とし、再利用可能な標準ワークフローを構築した。これにより、数TB規模の医療データでも効率的な処理が可能となり、研究品質や教育的価値の向上、将来的なSQLテンプレート自動生成等への発展可能性が示された。
第四のクラウド分析基盤実証では、医科・DPC・調剤の全テーブル1年分620GBをRedshiftからS3上にParquet形式で生成し、684テーブルすべてでデータ一致を確認した。HIC甲区分の環境で実用的な処理性能を確認し、ストレージ料金も低コストであったことから、従来のRedshift依存の分析環境におけるコスト増大や柔軟性不足を補完し得る可能性が示された。
第五の海外調査では、各国が医療関連データの提供・解析環境が整備されていることを確認した。特に韓国・フィンランドでは、前回調査時より利活用環境が進展しており、世界的にリアルワールドデータの整備とレセプト関連データの利活用が進んでいることが示された。
第六のマスタ情報については、薬価コード時系列マスタ、糖尿病薬マスタなど5種類を提供した。これらを契機に、二次利用ポータル上で研究者間のマスタ共有が進むことが期待される。
第一のユースケース調査では、論文47件、報告書16件を対象に、利用目的や必要データ項目等を整理した。論文では処方動向、介入効果、疾患疫学、地域差分析、報告書では地域差分析、医療提供体制調査、処方動向が多かった。HICで提供可能なデータ形式に基づく分類では、論文24件、報告書6件が通年パネルデータセット、トライアルデータセット、NDB-βのいずれかで実施可能と考えられた。一方、希少疾患や詳細な層別解析を伴う研究では特別抽出が妥当と考えられた。通年パネルデータセットを5年以上に拡張することで、既存研究の一定割合をHICで提供可能な形式により代替できる可能性が示された。
第二のユーザビリティテストでは、解析環境、二次利用ポータル、関連ドキュメントに改善余地のある課題を整理し、改善提案を一覧化した。NDB提供申出書様式の別添8は項目数が多く、研究者にとって操作が難しいため、一定条件下での記載テンプレートを作成した。また、入力方式についても改善余地があると考えられた。
第三の標準化SQLデータハンドリングフレームワークでは、「解析単位」「時間的アンカー」「観察ウィンドウ」「マスタテーブル整備」を基盤概念とし、再利用可能な標準ワークフローを構築した。これにより、数TB規模の医療データでも効率的な処理が可能となり、研究品質や教育的価値の向上、将来的なSQLテンプレート自動生成等への発展可能性が示された。
第四のクラウド分析基盤実証では、医科・DPC・調剤の全テーブル1年分620GBをRedshiftからS3上にParquet形式で生成し、684テーブルすべてでデータ一致を確認した。HIC甲区分の環境で実用的な処理性能を確認し、ストレージ料金も低コストであったことから、従来のRedshift依存の分析環境におけるコスト増大や柔軟性不足を補完し得る可能性が示された。
第五の海外調査では、各国が医療関連データの提供・解析環境が整備されていることを確認した。特に韓国・フィンランドでは、前回調査時より利活用環境が進展しており、世界的にリアルワールドデータの整備とレセプト関連データの利活用が進んでいることが示された。
第六のマスタ情報については、薬価コード時系列マスタ、糖尿病薬マスタなど5種類を提供した。これらを契機に、二次利用ポータル上で研究者間のマスタ共有が進むことが期待される。
結論
本研究により、NDB/HICの利活用拡大にむけてデータセット拡充の必要性を示すとともに、操作性改善案や標準化されたSQL処理、低コストなクラウド分析基盤等を提示した。今後各種調査・分析を進めるとともに、引き続き必要なデータ提供・支援を継続していく予定である。
公開日・更新日
公開日
2026-06-22
更新日
-