文献情報
文献番号
201703006A
報告書区分
総括
研究課題名
電子カルテ情報をセマンティクス(意味・内容)の標準化により分析可能なデータに変換するための研究
課題番号
H28-ICT-一般-006
研究年度
平成29(2017)年度
研究代表者(所属機関)
宮本 恵宏(国立研究開発法人国立循環器病研究センター 循環器病統合情報センター)
研究分担者(所属機関)
- 竹村 匡正(兵庫県立大学大学院 応用情報科学研究科)
- 竹上 未紗(国立研究開発法人国立循環器病研究センター 予防医学・疫学情報部)
- 興梠 貴英(自治医科大学 医療情報部)
- 中山 雅晴(東北大学病院 メディカルITセンター)
- 的場 哲哉(九州大学病院 循環器内科)
- 小室 一成(東京大学大学院医学系研究科 循環器内科 )
- 斎藤 能彦(奈良県立医科大学 循環器内科学)
- 安田 聡(国立研究開発法人国立循環器病研究センター 病院・心臓血管内科部門)
- 宍戸 稔聡(国立研究開発法人国立循環器病研究センター 研究推進支援部)
- 西村 邦宏(国立研究開発法人国立循環器病研究センター 循環器病統合情報センター)
- 平松 治彦(国立研究開発法人国立循環器病研究センター 情報統括部)
- 上村 幸司(国立研究開発法人国立循環器病研究センター 研究推進支援部)
- 辻田 賢一(熊本大学大学院 生命科学研究部)
- 宇宿 功市郎(熊本大学 医学部付属病院)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築研究)
研究開始年度
平成28(2016)年度
研究終了予定年度
平成30(2018)年度
研究費
13,082,000円
研究者交替、所属機関変更
中村文明(平成29年4月1日~平成29年12月31日)→竹上未紗(平成30年1月1日以降)
研究報告書(概要版)
研究目的
高齢化社会の中にある我が国をはじめとする先進諸国では、循環器疾患が急増している。循環器疾患は再発を繰り返し徐々に進行していくという臨床経過をたどることが多い。そのため循環器疾患においては、Major Adverse Cardiac Event(MACE)とよばれる主要有害心血管イベントを発生させないための再発予防が重要である。本研究では、電子カルテの記事情報から自然言語処理を活用して自動的にMACEであると判断するためのシステムを開発し、電子カルテ情報を用いたMACEのビッグデータ分析を行うためのシステムを開発する。
研究方法
電子カルテシステム上のデータの確認と、機械学習を用いた症状記載の自動抽出に関する実験、自然言語処理を行う準備である医療用語辞書の作成、SS-MIX2データからのデータベースを構築と電子カルテ記事の抽出を行った。
結果と考察
(1)電子カルテシステム上のデータの確認
国立循環器病研究センター電子カルテ(NEC MegaOak HR)における記述情報(SOAP、退院サマリ)の抽出を行うために、データベースのテーブル構造の把握と実際の抽出作業を実施した。その結果、文字コードの問題などがあったが、必要な記述情報を抽出できることを確認した。
(2)機械学習を用いた症状記載の自動抽出に関する実験
電子カルテシステム内に蓄積された所見・報告書・サマリなどのテキスト情報から、自然言語処理および機械学習を用いて、カルテ記載内における「症状記載」について、判別・予測する方法論の検討を行った。具体的には、臨床研究業務担当者が実際に必要とする症状記載データについて、カルテ記載情報から手動で抽出を行った。これらを用いて教師データを作成し、カルテ記載における「症状記載」と「その他の記載」についての自動判別器を作成した。自動判別器は、文章内に出現した各形態素を1次元とした線形サポートベクターマシンを用いて作成した。10分割交差検定を行い評価した結果、本判別器の感度・特異度はともに70~80%の性能を有していることがわかった。
(3)自然言語処理を行う準備である医療用語辞書の作成
国立循環器病研究センターにおいて電子カルテ記事の抽出を行い、電子カルテ記事の自然言語処理を行う準備である医療用語辞書の準備を行った。電子カルテデータの自然言語処理を行い、医学用語の意味体系(オントロジー)の構築とそれを利用した単語間の相関の度合い(距離等)の利用、形態素解析(名詞、助詞、動詞等の分かち書き)、係り受け解析(主語、述語等の単語間の関係)など文法の解析精度の向上を試みた。約60万行のカルテ記事を読み込み、症候の出現頻度を患者ごとに集積し、文章単位での解析が可能なため症候の出現時期、時間が同定可能であった。
(4)SS-MIX2データからのデータベースを構築と電子カルテ記事の抽出
東北大学、自治医科大学、九州大学では、csv形式で出力された心電図、心臓超音波検査、心臓カテーテル検査結果を日本循環器学会標準規格であるSEAMATに変換するためのプログラムの実装を行った。また、関連する学会との意見調整を行うため、SEAMAT研究会を発足させ、項目の見直しを行った。東大病院の循環器系生理機能検査データ(心電図、心エコーなど)に関しては日本循環器病学会標準出力フォーマット(SEAMAT形式)への変換表を作成し、2017年11月より心エコーデータはSS-MIX2拡張ストレージへ出力が開始されている。また、その他の生理検査は2018年2月よりSS-MIX2拡張ストレージへ出力開始予定である。熊本大学では、電子カルテからは、データウェアハウスDWHに情報連携、蓄積がなされているが、このDWHから患者基本情報、病名情報、外来受診情報、入退院情報、処方オーダ、注射オーダ、検体検査オーダ、放射線オーダ、検体検査結果、心電図数値データ、心エコー数値データ、心カテ記録、退院サマリ、経過記録に関してSS-MIX2標準ストレージ、拡張ストレージにデータ出力ならびに提供ができる状況を整えることが出来た。
国立循環器病研究センター電子カルテ(NEC MegaOak HR)における記述情報(SOAP、退院サマリ)の抽出を行うために、データベースのテーブル構造の把握と実際の抽出作業を実施した。その結果、文字コードの問題などがあったが、必要な記述情報を抽出できることを確認した。
(2)機械学習を用いた症状記載の自動抽出に関する実験
電子カルテシステム内に蓄積された所見・報告書・サマリなどのテキスト情報から、自然言語処理および機械学習を用いて、カルテ記載内における「症状記載」について、判別・予測する方法論の検討を行った。具体的には、臨床研究業務担当者が実際に必要とする症状記載データについて、カルテ記載情報から手動で抽出を行った。これらを用いて教師データを作成し、カルテ記載における「症状記載」と「その他の記載」についての自動判別器を作成した。自動判別器は、文章内に出現した各形態素を1次元とした線形サポートベクターマシンを用いて作成した。10分割交差検定を行い評価した結果、本判別器の感度・特異度はともに70~80%の性能を有していることがわかった。
(3)自然言語処理を行う準備である医療用語辞書の作成
国立循環器病研究センターにおいて電子カルテ記事の抽出を行い、電子カルテ記事の自然言語処理を行う準備である医療用語辞書の準備を行った。電子カルテデータの自然言語処理を行い、医学用語の意味体系(オントロジー)の構築とそれを利用した単語間の相関の度合い(距離等)の利用、形態素解析(名詞、助詞、動詞等の分かち書き)、係り受け解析(主語、述語等の単語間の関係)など文法の解析精度の向上を試みた。約60万行のカルテ記事を読み込み、症候の出現頻度を患者ごとに集積し、文章単位での解析が可能なため症候の出現時期、時間が同定可能であった。
(4)SS-MIX2データからのデータベースを構築と電子カルテ記事の抽出
東北大学、自治医科大学、九州大学では、csv形式で出力された心電図、心臓超音波検査、心臓カテーテル検査結果を日本循環器学会標準規格であるSEAMATに変換するためのプログラムの実装を行った。また、関連する学会との意見調整を行うため、SEAMAT研究会を発足させ、項目の見直しを行った。東大病院の循環器系生理機能検査データ(心電図、心エコーなど)に関しては日本循環器病学会標準出力フォーマット(SEAMAT形式)への変換表を作成し、2017年11月より心エコーデータはSS-MIX2拡張ストレージへ出力が開始されている。また、その他の生理検査は2018年2月よりSS-MIX2拡張ストレージへ出力開始予定である。熊本大学では、電子カルテからは、データウェアハウスDWHに情報連携、蓄積がなされているが、このDWHから患者基本情報、病名情報、外来受診情報、入退院情報、処方オーダ、注射オーダ、検体検査オーダ、放射線オーダ、検体検査結果、心電図数値データ、心エコー数値データ、心カテ記録、退院サマリ、経過記録に関してSS-MIX2標準ストレージ、拡張ストレージにデータ出力ならびに提供ができる状況を整えることが出来た。
結論
様々なシステムで作成・保管され、形式も多様なテキスト情報が、本研究で利用できる形式で抽出・収集可能か検証することができた。これらの結果は、他施設における情報抽出・収集においてもフィードバック可能である。
公開日・更新日
公開日
2018-10-23
更新日
-