電子カルテ情報をセマンティクス（意味・内容）の標準化により分析可能なデータに変換するための研究

文献情報

文献番号

201803006A

報告書区分

総括

研究課題名

電子カルテ情報をセマンティクス（意味・内容）の標準化により分析可能なデータに変換するための研究

研究課題名（英字）

課題番号

H28-ICT-一般-006

研究年度

平成30(2018)年度

研究代表者(所属機関)

宮本　恵宏(国立研究開発法人国立循環器病研究センター　予防健診部)

研究分担者(所属機関)

竹村　匡正(兵庫県立大学大学院　応用情報科学研究科)
竹上　未紗(国立研究開発法人国立循環器病研究センター　予防医学・疫学情報部)
興梠　貴英(自治医科大学　医療情報部)
中山　雅晴(東北大学病院　医学系研究科)
的場　哲哉(九州大学病院　循環器内科)
小室　一成(東京大学大学院　医学系研究科)
斎藤　能彦(奈良県立医科大学　循環器内科学)
安田　聡(国立研究開発法人国立循環器病研究センター　病院・心臓血管内科部門)
宍戸　稔聡(国立研究開発法人国立循環器病研究センター　研究推進支援部)
西村　邦宏(国立研究開発法人国立循環器病研究センター　予防医学・疫学情報部)
平松　治彦(国立研究開発法人国立循環器病研究センター　情報統括部)
上村　幸司(国立研究開発法人国立循環器病研究センター　研究推進支援部)
辻田　賢一(熊本大学大学院　生命科学研究部)
宇宿　功市郎(熊本大学医学部付属病院　医療情報経営企画部)

研究区分

厚生労働科学研究費補助金行政政策研究分野政策科学総合研究（臨床研究等ＩＣＴ基盤構築・人工知能実装研究）

研究開始年度

平成28(2016)年度

研究終了予定年度

平成30(2018)年度

研究費

11,774,000円

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

診療報酬請求情報を使用した分析、または電子カルテ情報を用いてビッグデータの分析においては、MACEなどのイベントをアウトカムにした研究をすることができない。本研究では、電子カルテの記事情報から自然言語処理を活用して自動的にMACEであると判断するためのシステムを開発し、電子カルテ情報を用いたMACEのビッグデータ分析を行うためのシステムを開発する。

研究方法

電子カルテシステム上のデータの確認と、機械学習を用いた症状記載の自動抽出に関する実験、自然言語処理を行う準備である医療用語辞書の作成、SS-MIX2データからのデータベースを構築と電子カルテ記事の抽出を行った。

結果と考察

（1）電子カルテシステム上のデータの確認
国立循環器病研究センター電子カルテ（NEC MegaOak HR）における記述情報（SOAP、退院サマリ）の抽出を行うために、データベースのテーブル構造の把握と実際の抽出作業を実施した。その結果、文字コードの問題などがあったが、必要な記述情報を抽出できることを確認した。この際、記述情報の匿名化についても複数の課題があることがわかり、新たな課題として対応方法を検討することとした。
（2）機械学習を用いた症状記載の自動抽出に関する実験
電子カルテシステム内に蓄積された所見・報告書・サマリなどのテキスト情報から、自然言語処理および機械学習を用いて、カルテ記載内における「症状記載」について、判別・予測する方法論の検討を行った。
具体的には、臨床研究業務担当者が実際に必要とする症状記載データについて、カルテ記載情報から手動で抽出を行った。これらを用いて教師データを作成し、カルテ記載における「症状記載」と「その他の記載」についての自動判別器を作成した。自動判別器は、文章内に出現した各形態素を１次元とした線形サポートベクターマシンを用いて作成した。10分割交差検定を行い評価した結果、本判別器の感度・特異度はともに70～80%の性能を有していることがわかった。
（３）自然言語処理を行う準備である医療用語辞書の作成
国立循環器病研究センターにおいて電子カルテ記事の抽出を行い、電子カルテ記事の自然言語処理を行う準備である医療用語辞書の準備を行った。平成29年度は、専門医2名、統計学者2名が国立循環器病研究センターにおいて、電子カルテデータの自然言語処理を行い、医学用語の意味体系（オントロジー）の構築とそれを利用した単語間の相関の度合い（距離等）の利用、形態素解析（名詞、助詞、動詞等の分かち書き）、係り受け解析（主語、述語等の単語間の関係）など文法の解析精度の向上を試みた。約60万行のカルテ記事を読み込み、症候の出現頻度を患者ごとに集積し、文章単位での解析が可能なため症候の出現時期、時間が同定可能であった。
（４）SS-MIX2データからのデータベースを構築と電子カルテ記事の抽出
東北大学、自治医科大学、九州大学では、csv形式で出力された心電図、心臓超音波検査、心臓カテーテル検査結果を日本循環器学会標準規格であるSEAMATに変換するためのプログラムの実装を行った。また、関連する学会との意見調整を行うため、SEAMAT研究会を発足させ、項目の見直しを行った。とりわけ、心臓超音波検査項目に対して心エコー図学会から、より実践的かつ網羅的な提案がなされ、改訂に取り組んでいる。さらに、ISO取得に向け活動の幅を広げている。東大病院の循環器系生理機能検査データ（心電図、心エコーなど）に関しては日本循環器病学会標準出力フォーマット（SEAMAT形式）への変換表を作成し、2017年11月より心エコーデータはSS-MIX2拡張ストレージへ出力が開始されている。また、その他の生理検査は2018年2月よりSS-MIX2拡張ストレージへ出力開始予定である。熊本大学では、電子カルテからは、データウェアハウスDWHに情報連携、蓄積がなされているが、このDWHから患者基本情報、病名情報、外来受診情報、入退院情報、処方オーダ、注射オーダ、検体検査オーダ、放射線オーダ、検体検査結果、心電図数値データ、心エコー数値データ、心カテ記録、退院サマリ、経過記録に関してSS-MIX2標準ストレージ、拡張ストレージにデータ出力ならびに提供ができる状況を整えることが出来た。

結論

様々なシステムで作成・保管され、形式も多様なテキスト情報が、本研究で利用できる形式で抽出・収集可能か検証することができた。これらの結果は、他施設における情報抽出・収集においてもフィードバック可能である。

公開日・更新日

公開日

2019-11-15

更新日

研究報告書（PDF）

一括ダウンロード用PDF

表紙

表紙 [4.66 KB]

目次 [7.17 KB]

総括研究報告書

電子カルテ情報をセマンティクス（意味・内容）の標準化により分析可能なデータに変換するための研究／宮本恵宏 [30.41 KB]

分担研究報告書

機会学習を用いた症状記載の自動抽出に関する検討／竹村匡正、宍戸稔聡、平松治彦、上村幸司 [255.95 KB]

分担研究報告書

人口知能（AI）を活用した循環器疾患の登録システムの整備に関する研究／西村邦宏、竹上未紗 [77.98 KB]

分担研究報告書

自然言語処理を含む機械学習に供するための標準データを電子カルテから抽出するための研究／興梠貴英 [12.78 KB]

分担研究報告書

SS-MIXを応用したPINNACLEレジストリー構築に関する研究／安田聡 [10.44 KB]

分担研究報告書

データ転送プログラムによるデータ収集に関する研究／中山雅晴 [17.37 KB]

分担研究報告書

循環器疾患アウトカム収集・SS-MIX2データ収集システム実装／的場哲也 [88.5 KB]

分担研究報告書

臨床効果データベース事業の学会支援／小室一成 [14.04 KB]

分担研究報告書

SS-MIX2を利用した臨床効果データベースのデータ収集に関する研究／辻田賢一、宇宿功一朗市郎 [16.57 KB]

研究成果の刊行に関する一覧表

研究成果の刊行に関する一覧表 [6.62 KB]

倫理審査等報告書の写し

倫理審査等報告書の写し [5.31 MB]

公開日・更新日

公開日

2019-11-15

更新日

研究報告書（紙媒体）

文献情報

文献番号

201803006B

報告書区分

総合

研究課題名

電子カルテ情報をセマンティクス（意味・内容）の標準化により分析可能なデータに変換するための研究

研究課題名（英字）

課題番号

H28-ICT-一般-006

研究年度

平成30(2018)年度

研究代表者(所属機関)

宮本　恵宏(国立研究開発法人国立循環器病研究センター　予防健診部)

研究分担者(所属機関)

竹村　匡正(兵庫県立大学大学院　応用情報科学研究科)
竹上　未紗(国立研究開発法人国立循環器病研究センター　予防医学・疫学情報部)
興梠　貴英(自治医科大学　医療情報部)
中山　雅晴(東北大学病院　医学系研究科)
的場　哲哉(九州大学病院　循環器内科)
小室　一成(東京大学大学院　医学系研究科)
斎藤　能彦(奈良県立医科大学　循環器内科学)
安田　聡(国立研究開発法人国立循環器病研究センター　病院・心臓血管内科部門)
宍戸　稔聡(国立研究開発法人国立循環器病研究センター　研究推進支援部)
西村　邦宏(国立研究開発法人国立循環器病研究センター　予防医学・疫学情報部)
平松　治彦(国立研究開発法人国立循環器病研究センター　情報統括部)
上村　幸司(国立研究開発法人国立循環器病研究センター　研究推進支援部)
辻田　賢一(熊本大学大学院　生命科学研究部)
宇宿　功市郎(熊本大学医学部付属病院　医療情報経営企画部)
中村　文明(国立研究開発法人国立循環器病研究センター　循環器病統合情報センター)

研究区分

厚生労働科学研究費補助金行政政策研究分野政策科学総合研究（臨床研究等ＩＣＴ基盤構築・人工知能実装研究）

研究開始年度

平成28(2016)年度

研究終了予定年度

平成30(2018)年度

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

研究方法

結果と考察

（1）機械学習を用いた症状記載の自動抽出に関する検討
電子カルテシステム内に蓄積された所見・報告書・サマリなどのテキスト情報から、自然言語処理および機械学習を用いて、カルテ記載内における「症状記載」について、判別・予測する方法論の検討を行った。カルテ記載情報から教師データを作成し、カルテ記載における「症状記載」と「その他の記載」についての自動判別器を作成した。自動判別器は、文章内に出現した各形態素を１次元とした線形サポートベクターマシンを用いて感度・特異度はともに70～80%の性能を有した判別器を作成した。また、電子カルテシステムにおけるSOAP記載が、病態の特徴を現しているという仮説のもとに、自然言語処理を用いてSOAP記載内容と医師が付与した病名の関連を学習し、これら機会学習によって病名予測を試み、総じて正確に病態を判定できることが明らかとなった。
（2）人口知能（AI）を活用した循環器疾患の登録システムの整備に関する研究
自然言語処理技術に関して先進的なIBMワトソンによりMajor Cardiac eventをとらえることを目的に辞書チューニングを行った。死亡イベントに関しては、電子カルテ上の死亡退院により100％の把握が可能であった。初回の入院に関しては、入院契機が虚血性心疾患、心不全、脳卒中である場合もほぼ捕捉可能であった。死亡と入院契機の虚血性心疾患、心不全、不整脈項目により心臓死の確認が可能であった。辞書チューニング前はaccuracyとして65％前後であるが、チューニング後は95％以上の精度達成が可能であった。
（３）自然言語処理を含む機械学習に供するための標準データを電子カルテから抽出するための研究
心臓カテーテル検査の患者の電子カルテから、処方データ、血液検査値データの他、心エコーデータをCSVデータからSEAMAT形式に変換してSS-MIX2拡張ストレージに出力した。心臓カテーテル検査レポートデータについてもCAIRS-DBからCAIRSフォーマットで出力したデータをSEAMAT形式に変換した。さらにSS-MIX2ストレージに格納された各種データをSS-MIX2 agentを用いて抽出することにも成功した。
（４）データ転送プログラムによるデータ収集に関する研究
日本循環器学会標準出力フォーマット（Standard Export data forMAT：SEAMAT）を用いて、厚労省標準保存形式であるSS-MIX2の拡張ストレージに循環器特有の検査結果を転送し、データを2次活用するための基盤システムを整備した。東北大学、自治医科大学、九州大学では、csv形式で出力された心電図、心臓超音波検査、心臓カテーテル検査結果を日本循環器学会標準規格であるSEAMATに変換するためのプログラムの実装を行った。日本循環器学会の他、日本医療情報学会、日本心不全学会、日本不整脈心電学会、心エコー図学会、日本心血管インターベンション治療学会、日本心臓核医学会、心臓リハビリテーション学会が参加するSEAMAT研究会により項目の改訂や対象検査範囲の拡大を検討した。また、SS-MIX2 agentを設置した施設を増やし、データ収集の規模を拡大している。

結論

病院情報システムから、SOAPや退院サマリ、種々の検査報告書など、必要な情報を簡便に抽出できる仕組みとして、基幹システムや部門システムのデータを集約・管理できる統合DBの開発が可能となると考えられる。MACEに関連するイベントを精査し、そのイベントの判別に必要な教師データの精度の向上を行えば、機械学習手法によるより最適な予測手法が可能となった。様々なシステムで作成・保管され、形式も多様なテキスト情報が、本研究で利用できる形式で抽出・収集可能か検証することができた。これらの結果は、多施設における情報抽出・収集においてもフィードバック可能である。