文献情報
文献番号
202102003A
報告書区分
総括
研究課題名
死因統計の精度及び効率性の向上に資する機械学習の検討に関する研究
課題番号
19AB1003
研究年度
令和3(2021)年度
研究代表者(所属機関)
今井 健(東京大学 大学院医学系研究科 疾患生命工学センター)
研究分担者(所属機関)
- 香川 璃奈(筑波大学医学医療系)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(統計情報総合研究)
研究開始年度
令和1(2019)年度
研究終了予定年度
令和3(2021)年度
研究費
3,875,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
人口動態調査は国勢調査と並ぶ国の主要統計で公衆衛生施策の中心的資料である。本研究は原死因確定に関する調査を行い、我が国での原死因データ収集における課題を抽出し、ICD-11における死亡診断書や死亡統計ルールの動向を調査すると共に、原死因確定作業に対する機械学習の適用可能性について調査・検討を行うことを目的とした。今年度は昨年までの成果を元に、追加提供を受けたデータと合わせ、各種機械学習アルゴリズムによる機械学習実験を行い、適用可能性分析を行った。またその他の調査項目についてもアップデートを行った。
研究方法
■原死因確定プロセスにおける課題の抽出
厚生労働省関係者へのヒアリングと共に、統計法第33条に基づく目的外利用申請によって平成27年~令和2年の死亡票・死亡個票データの提供を受け、分析を行ってきた。本年度は追加提供を受けたデータを合わせて解析し、昨年度まで判明している原死因確定のプロセスの詳細について分析した。
■機械学習の適用可能性調査
これまでの研究により、機械学習の効率的な適用として、「何らかの付帯情報があり人手確認されている、約35%程度の死亡票」に対し、付帯情報の内容を考慮した上で「オートコーディングシステムが付与した仮原死因を変更するべきか否か」、を高精度に予測するシステムが有効であることが判明している。本研究ではこれを実現するため、フリーのオートコーディングソフトであるIRISを用い以下の手順で行った。
(1) 死亡票・死亡個票データ(平成27〜令和2年、約800万件)に対し、各種の前処理を行った上で、死亡個票中の自由入力病名を各種の文字列処理と標準病名マスターを利用して自動ICD-10コーディングを行うシステムを開発した。
(2) 次に、死亡個票中の全病名にICD-10コードが振られたものについてIRISに入力し、仮原死因コードを決定すると共に、確定原死因コードと比較を行った。
(3) IRIS 処理結果については国内の原死因コードと粒度が合わないケースがあるため、これを修正する処理を行い、「年齢・性別・記載病名のICD-10コード・付帯情報の項目の有無」からなる機械学習用の共通ベクトルを作成した。
(4) 何らかの付帯情報が存在する死亡票のみを対象に、「IRISが決定した仮原死因が付帯情報の影響により変更されるか否か」を分類するモデルを学習した。XGboostを用いた分類器では、入力として共通ベクトルのみ(BASELINE)、付帯情報の意味内容を分散表現に変換しこれに加えたもの(5種類:TFIDF/LSI/Word2Vec/Doc2Vec(PV-DM)/Doc2Vec(PV-DBOW) を用いた。さらにBERTモデルの出力と共通ベクトルを上位の全結合層で統合するDNNモデルでの学習結果とも比較した。
■ICD-11における死亡診断書や死亡統計ルールの動向については、昨年度に引き続きWHO並びに日本WHO-FIC協力センターの関係者へのヒアリング、WHO-FIC会議などへの参加によって調査を行った。
厚生労働省関係者へのヒアリングと共に、統計法第33条に基づく目的外利用申請によって平成27年~令和2年の死亡票・死亡個票データの提供を受け、分析を行ってきた。本年度は追加提供を受けたデータを合わせて解析し、昨年度まで判明している原死因確定のプロセスの詳細について分析した。
■機械学習の適用可能性調査
これまでの研究により、機械学習の効率的な適用として、「何らかの付帯情報があり人手確認されている、約35%程度の死亡票」に対し、付帯情報の内容を考慮した上で「オートコーディングシステムが付与した仮原死因を変更するべきか否か」、を高精度に予測するシステムが有効であることが判明している。本研究ではこれを実現するため、フリーのオートコーディングソフトであるIRISを用い以下の手順で行った。
(1) 死亡票・死亡個票データ(平成27〜令和2年、約800万件)に対し、各種の前処理を行った上で、死亡個票中の自由入力病名を各種の文字列処理と標準病名マスターを利用して自動ICD-10コーディングを行うシステムを開発した。
(2) 次に、死亡個票中の全病名にICD-10コードが振られたものについてIRISに入力し、仮原死因コードを決定すると共に、確定原死因コードと比較を行った。
(3) IRIS 処理結果については国内の原死因コードと粒度が合わないケースがあるため、これを修正する処理を行い、「年齢・性別・記載病名のICD-10コード・付帯情報の項目の有無」からなる機械学習用の共通ベクトルを作成した。
(4) 何らかの付帯情報が存在する死亡票のみを対象に、「IRISが決定した仮原死因が付帯情報の影響により変更されるか否か」を分類するモデルを学習した。XGboostを用いた分類器では、入力として共通ベクトルのみ(BASELINE)、付帯情報の意味内容を分散表現に変換しこれに加えたもの(5種類:TFIDF/LSI/Word2Vec/Doc2Vec(PV-DM)/Doc2Vec(PV-DBOW) を用いた。さらにBERTモデルの出力と共通ベクトルを上位の全結合層で統合するDNNモデルでの学習結果とも比較した。
■ICD-11における死亡診断書や死亡統計ルールの動向については、昨年度に引き続きWHO並びに日本WHO-FIC協力センターの関係者へのヒアリング、WHO-FIC会議などへの参加によって調査を行った。
結果と考察
新たに追加提供を受けたデータを元に分析した結果、原死因確定プロセスにおいて人手の確認処理に回るのは35.6%、そのうち、13.6%について自動コーディングによる原死因コードの修正が行われていると推定された。人手確認の対象のうち、約8割は「原死因のコード修正も追加コードの付与も不要」であり、これを高精度に分離することで大幅に人手作業を削減できることが改めて大規模実データにて確認された。また本研究で作成したICD10コーディングシステムにより「全病名にICD10コードが付与できた」死亡票は80%で、これをIRIS処理し、確定原死因と比較して学習用データセットを作成した。付帯情報項目の有無を使った単純なモデルであるBASELINEで既に昨年度正解率90%を達成しているが、期待に反しBERTを用いたモデルは同等レベルであった。一方、XGboostを用いた手法では5種類の分散表現ともに正解率93%以上であり、特にTF・IDFで正解率95%, ROC-AUC 0.953, PR-ROC 0.857と非常に高い精度を実現した。確信度も提示できることから人手確認作業の強力な支援ツールとなると考えられた。
来るICD-11の時代に向けては現在IrisのICD11対応版、WHOのオートコーディングツールが作成中である。我が国のオートコーディングツールの改造も含め3つの選択肢があるが、本手法はどれとも組み合わせることができる点が利点である。
来るICD-11の時代に向けては現在IrisのICD11対応版、WHOのオートコーディングツールが作成中である。我が国のオートコーディングツールの改造も含め3つの選択肢があるが、本手法はどれとも組み合わせることができる点が利点である。
結論
原死因確定プロセスの支援手法として機械学習の有効性が示された。この支援手法を各種オートコーディングツールの処理結果に組み合わせることで原死因決定プロセスの正確性・効率性向上に大いに寄与すると期待される。
公開日・更新日
公開日
2024-06-06
更新日
-