機械学習を活用した診療情報の体系的な把握・分析に基づく、疾患との新たな関連性を発見するための研究

文献情報

文献番号
201903001A
報告書区分
総括
研究課題名
機械学習を活用した診療情報の体系的な把握・分析に基づく、疾患との新たな関連性を発見するための研究
課題番号
H29-ICT-一般-001
研究年度
令和1(2019)年度
研究代表者(所属機関)
金谷 泰宏(東海大学医学部基盤診療学系臨床薬理学)
研究分担者(所属機関)
  • 市川 学(芝浦工業大学システム理工学部環境システム学科)
  • 矢部 一郎(北海道大学大学院医学研究院神経病態学分野神経内科学教室)
  • 鈴木 祐介(順天堂大学医学部大学院医学研究科腎臓内科学講座)
  • 佐藤 洋子(防衛医科大学校防衛医学研究センター医療工学研究部門)
  • 嶋澤 るみ子(東海大学医学部基盤診療学系臨床薬理学)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
平成29(2017)年度
研究終了予定年度
令和1(2019)年度
研究費
9,000,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
本研究は、厚生労働省が管理する難治性疾患データベースを活用し、人工知能を用いて診断基準の妥当性、診断基準との関連性が高い項目を明らかにするとともに、早期における診断が困難とされる神経疾患、腎臓疾患を取り上げ、専門医による診断と人工知能による診断との乖離を検証するものである。これらの検証を踏まえ、専門医以外により提供された診療情報から確実に対象となる疾患を絞り込めるプログラムを開発し、都道府県等での実装を目指す。
研究方法
研究資料については、厚生労働省に登録された特定疾患治療研究事業・臨床調査個人票データベースを活用する。なお、当該データの利用については、厚生労働省健康局難病課より利用承認を得ている(健疾発0708第1号。平成22年7月8日)。また、地域における神経疾患のデータベースとして平成27年度よりAMEDの研究支援を受けて開始されたHokkaido Rare diseases Consortium for MSA (HoRC-MSA) との連携を図る。人工知能については、機械学習用ライブラリChainer(https://chainer.org)を用いて3層構造からなるニューラルネットワークを用いた。
結果と考察
MSAについては、SDN97%、OPCA88%と高い確率で、専門医と人工知能による診断の一致が示されたが、SDSについては一致率が71%と低い傾向を示した。そこで、SDSの診断に不可欠とされるシェロング試験データを補うことで一致率がどの程度向上するか検証を試みた。データの補足により診断一致率を約80%程度まで引き上げることができた。また、MSAの診断において高い相関を有する項目として6項目(失調症状、パーキンソニズム、歩行異常、前屈姿勢の有無、固縮、指タップ)を得ることができた。相関の高い項目を用いた予測と全項目を用いた予測で一致率を比較した場合、前者は84%、後者は81%と相関の高い項目を用いた機械学習の優位性が示唆された。なお、決定木を用いた検証において、木の深さを4~20層で比較した場合、4層で全項目を用いた場合の一致率は88%と最も高い値を示したが、5層以上にした場合、一致率は低下傾向を示した。さらに、膠原病に合併する腎障害リスクの予測については、強皮症症例23,452例のうち、初年度に強皮症腎クリーゼがなく(20,380例)、1年後の更新データがある9,869例を対象に解析を行った。1年後の強皮症腎クリーゼありをアウトカムとした(アウトカム発生数;53例)。多変量解析により、体幹・上腕の皮膚硬直、手指先端部の虫食い状瘢痕、前腕伸側硬化、心伝導障害がリスク因子として明らかとされた。また、治療選択との関係については、初年度では副腎皮質ステロイド、免疫抑制剤、非ステロイド系抗炎症剤、プロスタサイクリン、ACE阻害剤で有意な差は認められなかった。一方で、2年後の更新データがある6,748例での解析では、多変量解析においてプロスタサイクリンの使用例において有意に腎クリーゼのリスクが高い傾向が示された。
結論
稀少疾患は、症例が少ないが故に疾患概念を構築することが難しい。このため、わが国においては平成13年度より全国規模で稀少疾患に関する患者情報を登録する特定疾患調査解析システムより症例の集積が行われてきたところである。そこで、本研究においては、これらデータベースを用いて人工知能による機械学習を試みることで、症例数が少なく、臨床所見、画像診断、遺伝子診断を総合的に組み合わせることで正確な診断が得られる多系統萎縮症(MSA)、脊髄小脳変性症(SCA)を取り上げ、人工知能による診断プロセスの妥当性について検証を試みた。
一方で、診断に必要とされる項目を増やしても逆に過学習となることで診断精度の低下を招くことが示された。

公開日・更新日

公開日
2020-11-02
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2020-11-02
更新日
-

研究報告書(紙媒体)

文献情報

文献番号
201903001B
報告書区分
総合
研究課題名
機械学習を活用した診療情報の体系的な把握・分析に基づく、疾患との新たな関連性を発見するための研究
課題番号
H29-ICT-一般-001
研究年度
令和1(2019)年度
研究代表者(所属機関)
金谷 泰宏(東海大学医学部基盤診療学系臨床薬理学)
研究分担者(所属機関)
  • 市川 学(芝浦工業大学システム理工学部環境システム学科)
  • 矢部 一郎(北海道大学大学院医学研究院神経病態学分野神経内科学教室)
  • 佐々木 秀直(北海道大学大学院医学研究院神経病態学分野神経内科学教室)
  • 鈴木 祐介(順天堂大学医学部大学院医学研究科腎臓内科学講座)
  • 眞野 訓(順天堂大学医学部革新的医療技術開発研究センター)
  • 佐藤 洋子(防衛医科大学校防衛医学研究センター医療工学研究部門)
  • 嶋澤 るみ子(東海大学医学部基盤診療学系臨床薬理学 )
  • 江藤 亜紀子(国立保健医療科学院健康危機管理研究部)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
平成29(2017)年度
研究終了予定年度
令和1(2019)年度
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
本研究は、厚生労働省が管理する難治性疾患データベースを活用し、人工知能を用いて診断基準の妥当性、診断基準との関連性が高い項目を明らかにするとともに、早期における診断が困難とされる神経疾患、腎臓疾患を取り上げ、専門医による診断と人工知能による診断との乖離を検証するものである。これらの検証を踏まえ、専門医以外により提供された診療情報から確実に対象となる疾患を絞り込めるプログラムを開発し、都道府県等での実装を目指す。
研究方法
研究資料については、厚生労働省に登録された特定疾患治療研究事業・臨床調査個人票データベースを活用する。なお、当該データの利用については、厚生労働省健康局難病課より利用承認を得ている(健疾発0708第1号。平成22年7月8日)。また、地域における神経疾患のデータベースとして平成27年度よりAMEDの研究支援を受けて開始されたHokkaido Rare diseases Consortium for MSA (HoRC-MSA) との連携を図る。人工知能については、機械学習用ライブラリChainer(https://chainer.org)を用いて3層構造からなるニューラルネットワークを用いた。
結果と考察
MSAについては、SDN97%、OPCA88%と高い確率で、専門医と人工知能による診断の一致が示されたが、SDSについては一致率が71%と低い傾向を示した。そこで、SDSの診断に不可欠とされるシェロング試験データを補うことで一致率がどの程度向上するか検証を試みた。データの補足により診断一致率を約80%程度まで引き上げることができた。また、MSAの診断において高い相関を有する項目として6項目(失調症状、パーキンソニズム、歩行異常、前屈姿勢の有無、固縮、指タップ)を得ることができた。相関の高い項目を用いた予測と全項目を用いた予測で一致率を比較した場合、前者は84%、後者は81%と相関の高い項目を用いた機械学習の優位性が示唆された。なお、決定木を用いた検証において、木の深さを4~20層で比較した場合、4層で全項目を用いた場合の一致率は88%と最も高い値を示したが、5層以上にした場合、一致率は低下傾向を示した。SLE症例を用いて、人工透析が将来的に必要とされるか否かについて、機械学習による予測の可能性を検証した。課題として、全症例24,591例のうち人工透析を必要とした症例は186例と機械学習に足りる症例数を得ることができず、予測には至らなかった。一方で、COXハザード解析により、①感染症の合併、②高血圧症の合併、③免疫抑制剤使用、④血小板減少(10万/mm3以下)、⑤0.5g/日以上の持続性蛋白尿が血液透析への導入との関連性が高いことが示された。さらに、強皮症における検証でも、①体幹・上腕の皮膚硬直、②手指先端部の虫食い状瘢痕、③前腕伸側硬化、④心伝導障害が血液透析導入のリスク因子として明らかとされた。
結論
MSA及びSCDの解析に介して、解析に適さない症例が、MSAで4949例中1372例、SCDで7073例中2241例が認められる等、今後の人工知能の実装における課題である。今回の検証で、とりわけ欠損値が多い画像情報を外した場合、診断一致率は70%にも満たない等、データによって大きく影響するもの、そうでないものの判別を進める必要がある。診断精度の向上には、相関の高い項目(相関係数が|0.3|以上の項目)を選択的に用いたほうが、より高い正答率が得られた。一方で、決定木におけるハイパーパラメータとして、本研究では「木の深さ」を用いたが、max_depthを4に設定した場合、all_feature(全項目)は、select_feature(相関の高い項目)と比較して、88.2%の一致率を示した。all-featureは、max-depthを大きくするに従い一致率が下がる反面、select featureにおける一致率はmax-depthを増大しても一定レベルを維持することが示された。膠原病のうち、血液透析が必要となる症例についてリスクを予測できるかについての検証については、母集団中の陽性例が少なすぎるために検証し得なかった。しかしながら、予後と相関する因子を抽出し得た。

公開日・更新日

公開日
2020-11-02
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2020-11-02
更新日
-

研究報告書(紙媒体)

行政効果報告

文献番号
201903001C

収支報告書

文献番号
201903001Z