文献情報
文献番号
201902007A
報告書区分
総括
研究課題名
死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究
課題番号
19AB1003
研究年度
令和1(2019)年度
研究代表者(所属機関)
今井 健(東京大学 大学院医学系研究科 疾患生命工学センター)
研究分担者(所属機関)
- 明神 大也(奈良県立医科大学)
- 香川 璃奈(筑波大学医学医療系)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(統計情報総合研究)
研究開始年度
令和1(2019)年度
研究終了予定年度
令和3(2021)年度
研究費
3,400,000円
研究者交替、所属機関変更
研究分担者明神大也が厚生労働省へ異動になったことに伴い、2020年1月17日にて研究分担者から外れた。
研究報告書(概要版)
研究目的
人口動態調査は国勢調査と並ぶ国の主要統計で公衆衛生施策の中心的資料である。本研究は原死因確定に関する調査を行い、我が国での原死因データ収集における課題を抽出し、ICD-11における死亡診断書や死亡統計ルールの動向を調査すると共に、原死因確定作業に対する機械学習の適用可能性について調査・検討を行うことを目的とする。
研究方法
本年度は、統計法33条に基づき平成27年~30年の死亡票・死亡個票データの提供を受け突合を行った。また、ヒアリングと死亡票の実データを元にした集計によって、原死因確定プロセスにおける課題と処理の流れの概要を明らかにした。
またオートコーディングツールIrisについて調査を行い「疾病、傷害及び死因の統計分類提要 ICD-10(2013年版)準拠 第二巻 総論 (インストラクションマニュアル)」における原死因コーディング事例、並びに実死亡票・死亡個票データを対象とし原死因確定精度について検証を行った。
Irisは、入力としてI欄・II欄病名のICD-10コードを必要とする。そこで標準病名マスターを用いて自動ICD-10コーディング可能な割合についても調査を行った。
さらにICD-11における死亡診断書、死亡統計ルールの動向についても関係者へのヒアリング調査を行った。
またオートコーディングツールIrisについて調査を行い「疾病、傷害及び死因の統計分類提要 ICD-10(2013年版)準拠 第二巻 総論 (インストラクションマニュアル)」における原死因コーディング事例、並びに実死亡票・死亡個票データを対象とし原死因確定精度について検証を行った。
Irisは、入力としてI欄・II欄病名のICD-10コードを必要とする。そこで標準病名マスターを用いて自動ICD-10コーディング可能な割合についても調査を行った。
さらにICD-11における死亡診断書、死亡統計ルールの動向についても関係者へのヒアリング調査を行った。
結果と考察
関係者へのヒアリング調査の結果、原死因確定プロセスにおける課題としては、(1) オートコーディングシステムで原死因がルールベースで決定できない事例、(2) 病名以外の何らかの付帯情報が存在する場合の対処があることが判明した。
また提供を受けた死亡票・死亡個票データを突合し分析した結果、何らかの付帯情報があるものが32.8%存在し、これとコード疑義があるものと合わせて35.6%のものが人手チェックに回っていること、さらにそのうち約1/10が精査の結果として原死因コード変更されていることが判明した。人手チェックが行われているものは月約4万件程度に該当し、人手作業効率化と正確性向上のためには、付帯情報によって原死因コードの変更が起こるか否かを高精度に予測する機械学習手法の適用が有効であると考えられた。
一方、我が国ではWHOが定めた原死因確定ルールに従い、オートコーディングツールによって仮の原死因コードが自動付与されてるが、これを直接利用することはできない。本年度分析の結果、海外の多くの国で利用が進んでいるオートコーディングツールIrisを活用したところ、我が国のインストラクションマニュアル事例の約8割、実死亡票・死亡個票データの約9割に対し正しい原死因コードを付与することが確認でき、本研究で用いる代替ツールとして十分利用可能であることが判明した。
Irisを仮原死因コード確定に利用する場合、入力としてICD-10コードが必要である。本年度は、標準病名マスターを用いて、簡単な文字列処理までを施せば実データに対し約65%程度は全病名のICD-10コーディングが行える感触を得た。これとIrisを用いることで、実死亡票・死亡個票データに対し、仮原死因コードを確定させたデータが得られる。これと確定原死因を比較することで、病名以外の付帯情報に影響されて、原死因が変更されるか否かを自動分類するための学習用データセットが得られることになる。今後、なるべく多くの事例を学習用データセットに含めるため、処理の改良を行うと共に、これをもとに機械学習の適用をすすめる予定である。
ICD-11の動向については、現段階ではWHOはICD-11における死因統計ルールについて公表しておらず、またIrisのICD-11対応も作業が開始されているもののリリースまでは当分時間がかかる状況が判明した。原死因選択のルールについては基本的な考え方は踏襲されるものと思われるが、ICD-10に比べて大幅に粒度が細かい疾病分類体系となったICD-11ではIrisにおける原死因選択ルールテーブルが大幅に変更になり、これに合わせ我が国でのこれまでのオートコーディングシステムでのルールベースも大幅な変更を余儀なくされると予想される。次年度以降引き続き動向を注視することが必要である。
また提供を受けた死亡票・死亡個票データを突合し分析した結果、何らかの付帯情報があるものが32.8%存在し、これとコード疑義があるものと合わせて35.6%のものが人手チェックに回っていること、さらにそのうち約1/10が精査の結果として原死因コード変更されていることが判明した。人手チェックが行われているものは月約4万件程度に該当し、人手作業効率化と正確性向上のためには、付帯情報によって原死因コードの変更が起こるか否かを高精度に予測する機械学習手法の適用が有効であると考えられた。
一方、我が国ではWHOが定めた原死因確定ルールに従い、オートコーディングツールによって仮の原死因コードが自動付与されてるが、これを直接利用することはできない。本年度分析の結果、海外の多くの国で利用が進んでいるオートコーディングツールIrisを活用したところ、我が国のインストラクションマニュアル事例の約8割、実死亡票・死亡個票データの約9割に対し正しい原死因コードを付与することが確認でき、本研究で用いる代替ツールとして十分利用可能であることが判明した。
Irisを仮原死因コード確定に利用する場合、入力としてICD-10コードが必要である。本年度は、標準病名マスターを用いて、簡単な文字列処理までを施せば実データに対し約65%程度は全病名のICD-10コーディングが行える感触を得た。これとIrisを用いることで、実死亡票・死亡個票データに対し、仮原死因コードを確定させたデータが得られる。これと確定原死因を比較することで、病名以外の付帯情報に影響されて、原死因が変更されるか否かを自動分類するための学習用データセットが得られることになる。今後、なるべく多くの事例を学習用データセットに含めるため、処理の改良を行うと共に、これをもとに機械学習の適用をすすめる予定である。
ICD-11の動向については、現段階ではWHOはICD-11における死因統計ルールについて公表しておらず、またIrisのICD-11対応も作業が開始されているもののリリースまでは当分時間がかかる状況が判明した。原死因選択のルールについては基本的な考え方は踏襲されるものと思われるが、ICD-10に比べて大幅に粒度が細かい疾病分類体系となったICD-11ではIrisにおける原死因選択ルールテーブルが大幅に変更になり、これに合わせ我が国でのこれまでのオートコーディングシステムでのルールベースも大幅な変更を余儀なくされると予想される。次年度以降引き続き動向を注視することが必要である。
結論
ヒアリングと死亡票の実データを元にした集計によって、原死因確定プロセスにおける課題と処理の流れの概要を明らかにした。また、オートコーディングツールIris について調査を行い、原死因選択ツールとして利用可能であることを明らかにすると共に、現在の人手作業の大半を占める「付帯情報による原死因コード変更確認」の機械学習による支援に向け準備を整えた。
公開日・更新日
公開日
2021-07-15
更新日
-