死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究

文献情報

文献番号

202102003A

報告書区分

総括

研究課題名

死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究

研究課題名（英字）

課題番号

19AB1003

研究年度

令和3(2021)年度

研究代表者(所属機関)

今井　健(東京大学　大学院医学系研究科　疾患生命工学センター)

研究分担者(所属機関)

香川　璃奈(筑波大学医学医療系)

研究区分

厚生労働科学研究費補助金行政政策研究分野政策科学総合研究（統計情報総合研究）

研究開始年度

令和1(2019)年度

研究終了予定年度

令和3(2021)年度

研究費

3,875,000円

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

人口動態調査は国勢調査と並ぶ国の主要統計で公衆衛生施策の中心的資料である。本研究は原死因確定に関する調査を行い、我が国での原死因データ収集における課題を抽出し、ICD-11における死亡診断書や死亡統計ルールの動向を調査すると共に、原死因確定作業に対する機械学習の適用可能性について調査・検討を行うことを目的とした。今年度は昨年までの成果を元に、追加提供を受けたデータと合わせ、各種機械学習アルゴリズムによる機械学習実験を行い、適用可能性分析を行った。またその他の調査項目についてもアップデートを行った。

研究方法

■原死因確定プロセスにおける課題の抽出
厚生労働省関係者へのヒアリングと共に、統計法第33条に基づく目的外利用申請によって平成27年～令和2年の死亡票・死亡個票データの提供を受け、分析を行ってきた。本年度は追加提供を受けたデータを合わせて解析し、昨年度まで判明している原死因確定のプロセスの詳細について分析した。
■機械学習の適用可能性調査
これまでの研究により、機械学習の効率的な適用として、「何らかの付帯情報があり人手確認されている、約35%程度の死亡票」に対し、付帯情報の内容を考慮した上で「オートコーディングシステムが付与した仮原死因を変更するべきか否か」、を高精度に予測するシステムが有効であることが判明している。本研究ではこれを実現するため、フリーのオートコーディングソフトであるIRISを用い以下の手順で行った。
(1) 死亡票・死亡個票データ(平成27〜令和2年、約800万件)に対し、各種の前処理を行った上で、死亡個票中の自由入力病名を各種の文字列処理と標準病名マスターを利用して自動ICD-10コーディングを行うシステムを開発した。
(2) 次に、死亡個票中の全病名にICD-10コードが振られたものについてIRISに入力し、仮原死因コードを決定すると共に、確定原死因コードと比較を行った。
(3) IRIS 処理結果については国内の原死因コードと粒度が合わないケースがあるため、これを修正する処理を行い、「年齢・性別・記載病名のICD-10コード・付帯情報の項目の有無」からなる機械学習用の共通ベクトルを作成した。
(4) 何らかの付帯情報が存在する死亡票のみを対象に、「IRISが決定した仮原死因が付帯情報の影響により変更されるか否か」を分類するモデルを学習した。XGboostを用いた分類器では、入力として共通ベクトルのみ(BASELINE)、付帯情報の意味内容を分散表現に変換しこれに加えたもの(5種類：TFIDF/LSI/Word2Vec/Doc2Vec(PV-DM)/Doc2Vec(PV-DBOW) を用いた。さらにBERTモデルの出力と共通ベクトルを上位の全結合層で統合するDNNモデルでの学習結果とも比較した。
■ICD-11における死亡診断書や死亡統計ルールの動向については、昨年度に引き続きWHO並びに日本WHO-FIC協力センターの関係者へのヒアリング、WHO-FIC会議などへの参加によって調査を行った。

結果と考察

新たに追加提供を受けたデータを元に分析した結果、原死因確定プロセスにおいて人手の確認処理に回るのは35.6%、そのうち、13.6%について自動コーディングによる原死因コードの修正が行われていると推定された。人手確認の対象のうち、約8割は「原死因のコード修正も追加コードの付与も不要」であり、これを高精度に分離することで大幅に人手作業を削減できることが改めて大規模実データにて確認された。また本研究で作成したICD10コーディングシステムにより「全病名にICD10コードが付与できた」死亡票は80%で、これをIRIS処理し、確定原死因と比較して学習用データセットを作成した。付帯情報項目の有無を使った単純なモデルであるBASELINEで既に昨年度正解率90%を達成しているが、期待に反しBERTを用いたモデルは同等レベルであった。一方、XGboostを用いた手法では5種類の分散表現ともに正解率93%以上であり、特にTF・IDFで正解率95%, ROC-AUC 0.953, PR-ROC 0.857と非常に高い精度を実現した。確信度も提示できることから人手確認作業の強力な支援ツールとなると考えられた。
　来るICD-11の時代に向けては現在IrisのICD11対応版、WHOのオートコーディングツールが作成中である。我が国のオートコーディングツールの改造も含め3つの選択肢があるが、本手法はどれとも組み合わせることができる点が利点である。

結論

原死因確定プロセスの支援手法として機械学習の有効性が示された。この支援手法を各種オートコーディングツールの処理結果に組み合わせることで原死因決定プロセスの正確性・効率性向上に大いに寄与すると期待される。

公開日・更新日

公開日

2024-06-06

更新日

研究報告書（PDF）

一括ダウンロード用PDF

表紙

表紙 [57.95 KB]

目次 [69.08 KB]

総括研究報告書

死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究／東京大学大学院医学系研究科今井　健 [1.03 MB]

総括研究報告書

別添資料１　本研究で構築したシステムの詳細 [229.46 KB]

総括研究報告書

別添資料２　BERTを用いた予測モデルの学習実験 [201.54 KB]

分担研究報告書

死亡に関わる調査票情報提供に基づいたICD10コード自動付与ツールの作成／筑波大学医学医療系香川璃奈 [441.72 KB]

研究成果の刊行に関する一覧表

研究成果の刊行に関する一覧表 [88.66 KB]

その他

別添資料 [559.62 KB]

倫理審査等報告書の写し

倫理審査等報告書の写し [345.24 KB]

公開日・更新日

公開日

2024-06-06

更新日

研究報告書（紙媒体）

文献情報

文献番号

202102003B

報告書区分

総合

研究課題名

死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究

研究課題名（英字）

課題番号

19AB1003

研究年度

令和3(2021)年度

研究代表者(所属機関)

今井　健(東京大学　大学院医学系研究科　疾患生命工学センター)

研究分担者(所属機関)

香川　璃奈(筑波大学医学医療系)
明神　大也(奈良県立医科大学)

研究区分

厚生労働科学研究費補助金行政政策研究分野政策科学総合研究（統計情報総合研究）

研究開始年度

令和1(2019)年度

研究終了予定年度

令和3(2021)年度

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

研究方法

■原死因確定プロセスにおける課題の抽出
厚生労働省関係者へのヒアリングと共に、統計法第33条に基づく目的外利用申請によって平成27年～令和2年の死亡票・死亡個票データの提供、また統計法第22条に基づき厚生労働省内部での人手確認作業のサンプリング集計結果の提供を受け、これらを合わせて分析することで原死因確定のプロセスの流れについて明らかにした。
■機械学習の適用可能性調査
約35%の死亡票に対し人手確認が行われており月4万件に及ぶ。この大部分は病名以外の何らかの付帯情報があるためで、付帯情報がなくオートコーディングが原死因を決定できたものはそのまま確定される。また人手確認にて実際に仮原死因が変更されるのは少数であり大半は変更されない。従って付帯情報がある死亡票に対し、その情報から「仮の原死因が付帯情報の影響で変更されるか否か」を高精度で分類することができれば、大幅な人手労力の削減につながり効率化を図ることができる。本研究ではこれを実現するため、フリーのオートコーディングソフトであるIRISを用い以下の手順で機械学習の適用可能性調査を行った。
(1) 死亡票・死亡個票データ(平成27〜令和2年、約800万件)に対し、各種の前処理を行った上で、死亡個票中の自由入力病名を標準病名マスターを利用して自動ICD-10コーディングを行うシステムを開発した。
(2) 死亡個票中の全病名にICD-10コードを付与可能なものをIRISに入力し、仮原死因コードを決定すると共に、確定原死因コードと比較を行った。
(3) IRIS 処理結果と国内の原死因コードと粒度が合わないケースは可能な限り修正する処理を行い、「年齢・性別・記載病名のICD-10コード・付帯情報の項目の有無」からなる全手法用の共通ベクトルを作成した。
(4) 付帯情報が存在する死亡票のみを対象に「IRISが決定した仮原死因が付帯情報の影響により変更されるか否か」を分類するモデルを学習した。XGboostを用いた分類器では、入力として共通ベクトルのみ(BASELINE)、付帯情報の意味内容を分散表現に変換しこれに加えたもの(5種類：TFIDF/LSI/Word2Vec/Doc2Vec(PV-DM)/Doc2Vec(PV-DBOW) を用いた。またBERTモデルの出力と共通ベクトルを上位の全結合層で統合するDNNモデルでの学習結果とも比較した。
■ICD-11における死亡診断書や死亡統計ルールの動向については、WHO並びに日本WHO-FIC協力センター関係者へのヒアリング、WHO-FIC会議への参加によって調査を行った。

結果と考察

人手確認作業のランダムサンプリング結果、並びにIrisを用いたオートコーディングのシミュレーション結果により、原死因確定プロセスにおいて人手の確認処理に回るのは35.6%、そのうち、13〜14%について自動コーディングによる原死因コードの修正が行われていると推定された。人手確認の対象のうち約8割は「原死因のコード修正も追加コードの付与も不要」であり、これを高精度に分離することで大幅に人手作業を削減できることが改めて大規模実データにて確認された。また開発したICD10コーディングシステムにより「全病名にICD10コードが付与できた」死亡票は80%で、これをIRIS処理して確定原死因と比較。結果の一致・不一致を正解として学習を行った。付帯情報項目の有無を使った単純なモデルであるBASELINEでも正解率91〜92%と高精度に分類可能で、期待に反しBERTを用いたモデルはこれを下回った。一方、XGboostを用いた手法では5種類の分散表現ともに正解率93%以上であり、特にTF・IDFで正解率95%, ROC-AUC 0.953, PR-ROC 0.857と非常に高い精度を実現した。確信度も提示できることから人手確認作業の強力な支援ツールとなると考えられた。
　来るICD-11の時代に向けては現在IrisのICD11対応版、WHOのオートコーディングツールが作成中である。我が国のオートコーディングツールの改造も含め3つの選択肢があるが、本手法はどれとも組み合わせることができる点が利点である。

結論

公開日・更新日

公開日

2024-06-06

更新日

研究報告書（PDF）

一括ダウンロード用PDF

表紙

表紙 [57.62 KB]

目次 [73.22 KB]

総合研究報告書

死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究　東京大学　今井　健 [1.09 MB]

総合研究報告書

【別添資料1】本研究で構築したシステムの詳細 [259.81 KB]

総合研究報告書

【別添資料２】インストラクションマニュアル事例を対象とした Iris による原死因確定実験 [613.09 KB]

総合研究報告書

【別添資料３】実データを対象とした Iris による原死因確定実験 [442.82 KB]

総合研究報告書

【別添資料４】死亡に関わる調査票情報提供に基づいた ICD10 コード自動付与ツールの作成　令和２年度分担研究報告書　筑波大学香川璃奈 [649.83 KB]

総合研究報告書

【別添資料５】IRISに入力するための各種前処理 [196.34 KB]

総合研究報告書

【別添資料６】死亡に関わる調査票情報提供に基づいた ICD10 コード自動付与ツールの作成　令和３年度分担研究報告書　筑波大学香川璃奈 [426.59 KB]

総合研究報告書

【別添資料7】BERT を用いた予測モデルの学習実験 [232.14 KB]

総合研究報告書

【別添資料８】機械学習による原死因コード変更有無予測結果 [157.83 KB]

総合研究報告書

【別添資料９】主要プログラムソース [519.47 KB]

研究成果の刊行に関する一覧表

研究成果の刊行に関する一覧表 [92.51 KB]

その他

倫理審査等報告書 [1.62 MB]

公開日・更新日

公開日

2024-06-06

更新日

研究報告書（紙媒体）

行政効果報告

文献番号

202102003C

成果

専門的・学術的観点からの成果

我が国の原死因データ収集における課題を抽出し、機械学習による支援ターゲットを明らかにした。これを元に、オートコーディングツールにより決定された仮の原死因が、死亡個票の各種付帯情報に影響を受けて原死因確定の際に変更されるか否かについて、機械学習を用い非常に高い精度で自動分類し、原死因確定プロセスを支援する手法が開発された。

臨床的観点からの成果

我が国の公衆衛生施策の中心的資料である人口動態調査において、機械学習により原死因確定プロセスを高精度に支援する手法が開発でき、従来の人手による確認作業の正確性・効率性向上に大きく貢献するものと考えられる。

ガイドライン等の開発

特になし

その他行政的観点からの成果

来たるICD-11の国内導入にあたり、次世代の我が国の原死因確定ツールとしては、Iris、WHO cause of death identification tool、現状の国内オートコーディングツールの更新の３種類が考えられるが、本研究によりどのオートコーディングツールとも組み合わせて利用することが可能な、機械学習による汎用的支援手法が開発された。

その他のインパクト

特になし

発表件数

原著論文（和文）

4件

原著論文（英文等）

0件

その他論文(和文)

0件

その他論文(英文等)

0件

学会発表(国内学会)

0件

学会発表(国際学会等)

0件

その他成果(特許の出願)

0件

その他成果(特許の取得)

0件

その他成果(施策への反映)

0件

その他成果(普及・啓発活動)

0件

特許

主な原著論文20編（論文に厚生労働科学研究費の補助を受けたことが明記された論文に限る）

論文に厚生労働科学研究費の補助を受けたことが明記された論文に限ります。

原著論文1

明神大也，大井川仁美，今井　健，他
死因統計の精度と効率性の向上に向けた我が国の原死因確定課題の抽出
医療情報学 , 40(Suppl.) , 674-676 (2020)

原著論文2

大井川仁美，明神大也，今井　健，他
原死因確定プロセスにおけるIRIS の国内導入可能性に関する基礎的な検討
医療情報学 , 40(Suppl.) , 677-682 (2020)

原著論文3

大井川仁美，今井　健，今村知明，他
原死因決定プロセスの効率化に資する機械学習による原死因コード変更予測
医療情報学 , 41(Suppl.) , 797-800 (2021)

公開日・更新日

公開日

2023-05-16

更新日

収支報告書

文献番号

202102003Z

報告年月日

2022年05月30日

収入

(1)補助金交付額

5,000,000円

(2)補助金確定額

5,000,000円

差引額 [(1)-(2)]

0円

支出

研究費 (内訳)	直接研究費	物品費	736,207円
		人件費・謝金	0円
		旅費	162,712円
		その他	2,976,601円
	間接経費		1,125,000円
合計			5,000,520円

備考

公開日・更新日

公開日

2024-06-06

更新日