死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究

文献情報

文献番号
202002004A
報告書区分
総括
研究課題名
死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究
課題番号
19AB1003
研究年度
令和2(2020)年度
研究代表者(所属機関)
今井 健(東京大学 大学院医学系研究科 疾患生命工学センター)
研究分担者(所属機関)
  • 香川 璃奈(筑波大学医学医療系)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(統計情報総合研究)
研究開始年度
令和1(2019)年度
研究終了予定年度
令和3(2021)年度
研究費
3,320,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
人口動態調査は国勢調査と並ぶ国の主要統計で公衆衛生施策の中心的資料である。本研究は原死因確定に関する調査を行い、我が国での原死因データ収集における課題を抽出し、ICD-11における死亡診断書や死亡統計ルールの動向を調査すると共に、原死因確定作業に対する機械学習の適用可能性について調査・検討を行うことを目的とする。
研究方法
(1) 平成27年~平成30年の死亡票・死亡個票実データの分析を追加し原死因確定プロセスについてアップデートを行った。(2) 死亡票・死亡個票実データに対する自動ICD10コーディング処理とIrisによる仮原死因付与処理を行い、付帯情報によるコード変更・追加の件数について明らかにした。(3) 得られたデータに機械学習を適用し、付帯情報の影響で仮原死因が変更になるか否かの予測モデルを構築した。(4)ICD-11での動向について引き続きWHO並びに日本WHO-FIC協力センターの関係者へのヒアリングによって調査を行った。
結果と考察
昨年度までに判明している原死因確定プロセスについて、本年度は追加で提供を受けた平成30年度のデータを加え、総数約516万件に対して改めて原死因確定の流れを計算し直し、アップデートを行った。(1) 何らかの付帯情報があるもの (32.4%) の内訳はオートコーディングツールによるコーディングエラーあり (11.5%)、なし(20.9%) となっており、(2) 付帯情報がない 67.6% のものから、コーディングエラーのある3.2%を加えた35.6%について目視確認を行っていると改めて推計された。
次に、突合された死亡票・死亡個票データからランダムサンプリングした50万件に対し、ICD10コーディング処理を施した。全病名がICD-10コーディングされ、IRISへの入力として利用できたもの は約32万件(65%)であった。これに対し、Irisでの仮原死因付与処理を行い、確定原死因との比較を行った。結果、何らかの付帯情報があるものについては、仮原死因の変更もなく、コード追加の必要もないのは約8割であり、残りの2割は何らかの修正処理が必要であることが判明した。つまり、この8割を高精度に分類することができれば、これまでの人手確認作業を大幅に効率化(8割削減)することができると考えられた。
次に、以上の処理で得られた学習用データを元に、何らかの付帯情報が存在するケース50万件を対象とし、付帯情報によって影響を受けて「IRISが付与した仮原死因」が変更されるか否か、を2値分類する機械学習を行った。本年度はまずはベースライン手法とし、① I欄II欄各病名のICD10コード、② 付帯情報の各項目の有無、③ IRISが付与した仮原死因、を入力データとし、分類器学習モデルとして汎用的な勾配ブースティング決定木の一種であるXGBoostを用いて、仮原死因が変更されるか否かを予測するモデルを構築した。今後の精度比較のための最も単純なベースライン手法であるため、付帯情報については内容を考慮せず、単に各項目に記載があるかないかだけ(0/1)を用いているが、この時点で既にAccuracy90.3%で仮原死因の変更の有無が予測できることが判明し、非常に有望な手法と考えられた。
並行して行ったICD10自動コーディングツールの開発により、全記載病名がICD10コーディング可能な死亡票の割合は8割にまで大幅に向上している。次年度はこれを元にした実験を行う予定である。
ICD-11の動向については、現段階ではWHOはICD-11における死因統計ルールについて公表しておらず、またIrisのICD-11対応も作業が開始されているもののリリースまでは当分時間がかかる状況が判明した。原死因選択のルールについては基本的な考え方は踏襲されるものと思われるが、ICD-10に比べて大幅に粒度が細かい疾病分類体系となったICD-11ではIrisにおける原死因選択ルールテーブルが大幅に変更になり、これに合わせ我が国でのこれまでのオートコーディングシステムでのルールベースも大幅な変更を余儀なくされると予想される。次年度以降引き続き動向を注視することが必要である。
結論
本年度研究では、死亡票の実データに対してIRISを適用し、約65%に対し仮原死因を決定した上で今後の分類器学習のための教師データが得られた。また原死因コードの変更、コードの追加割合についても明らかにした。付帯情報の影響による仮原死因変更の有無についての2値分類ではベースライン手法にてAccuracy90%での判別が可能と判明した。

公開日・更新日

公開日
2024-06-06
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2024-06-06
更新日
-

研究報告書(紙媒体)

収支報告書

文献番号
202002004Z
報告年月日

収入

(1)補助金交付額
4,316,000円
(2)補助金確定額
4,316,000円
差引額 [(1)-(2)]
0円

支出

研究費 (内訳) 直接研究費 物品費 1,237,798円
人件費・謝金 1,838,187円
旅費 340,710円
その他 44,000円
間接経費 996,000円
合計 4,456,695円

備考

備考
-

公開日・更新日

公開日
2024-06-06
更新日
-