カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築,及び,自動構造化機能を有した入力機構の開発

文献情報

文献番号
201603012A
報告書区分
総括
研究課題名
カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築,及び,自動構造化機能を有した入力機構の開発
課題番号
H28-ICT-一般-008
研究年度
平成28(2016)年度
研究代表者(所属機関)
荒牧 英治(奈良先端科学技術大学院大学 研究推進機構)
研究分担者(所属機関)
  • 若宮翔子(奈良先端科学技術大学院大学 研究推進機構)
  • 河添悦昌(東京大学医学部)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築研究)
研究開始年度
平成28(2016)年度
研究終了予定年度
平成30(2018)年度
研究費
5,600,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
電子カルテに自由記載された文章を対象に,これを二次利用可能な状態に自動変換する技術を確立することである.これを実現するために,現状の解析システムの解析精度を向上させ,これを多様かつ複雑な電子カルテシステムに組み込む.
研究方法
(1)【処理1:医療用語抽出】
電子カルテ中の自然文から医療表現(時間表現と疾患/症状表現)を抽出する.
(2)【処理2:標準化変換(マッピング)】
自由記載された病名をICD10コードへマッピングする.これまで,出現頻度が低い(まれな)コードへのマッピングは困難であったが,前段(医療用語抽出モジュール)の結果を用いて,どのような患者がどのようなコードを付与されやすいかという確率モデルを構築する.
(3)【処理3:実装】
処理1と処理2により,既存の電子カルテ情報については後ろ向き解析が可能となるが,それでも一定の誤りが含まれてしまう.そこで,新たに電子カルテに医師等が入力する際に,標準化を行った結果をサジェストするという前向き処理機構を開発する.これにより,現場の医師の負担となることなく,自然と標準的なデータが蓄積されることを目指す.
結果と考察
以下の3つのシステム,リソース,アプリの開発を行い目的を達成した.
(1) 汎用病名抽出器MedEX/Jの開発/配布/評価
本システムは,日本語の医療文章を解析し病名を抽出する.予備実験の結果,病名抽出においては形態素解析を用いず,いきなり文字そのものを処理する方式の方が高精度であることが分かり(陽性抽出のF値0.926,陰性抽出のF値0.896),この結果を受けて,形態素解析部を省くことで,よりコンパクトな解析器を構築できることになった.
(2)MedEX/Jに利用する辞書「万病辞書」の構築
カルテ文章調査の結果,延べ45万症状表現(種類数としては6.2万種類)が得られ,その28.3%(種類数としては87.5%)が,標準病名でカバーされていないことが分かった.このうち高頻度(頻度30回出現の5,600病名)を扱い医療従事者3名によりコーディングを行い,意見が食い違ったものはその曖昧性も残したまま辞書リソース化した(通称「万病辞書」).この万病辞書により,現在すでにカルテに出現する80%(ただし種類数としては20%)の症状/病名を標準病名に変換可能である.
(3)日本語入力パレットの開発
日本語入力パレット(通常のIMEを用いて入力を行うと標準病名に変換した結果がサジェストされる)を開発した.今後は電子カルテにおける病名入力などで本システムを活用していく予定である.
結論
これまで多くの日本語形態素解析器(mecab, jumanなど)が開発されてきたが,医学文章の解析においては,十分な精度が出ていなかった. この理由の1つは,従来の形態素解析は,新聞などの汎用的な文章を想定し,特に医療に特化していないことにある. また,形態素という単位が,もっぱら抽出したい対象である薬品名や病名よりも小さく,いわゆる,細切れになってしまう問題もある.
このような問題を解決するために,本研究班で開発するMedEX/Jは,形態素ではなく,病名用語抽出に特化し,その後処理として,標準病名への標準化,事実性判定など,研究,臨床的に重要な処理も組み込むことに成功した。

公開日・更新日

公開日
2017-06-23
更新日
-

研究報告書(紙媒体)

収支報告書

文献番号
201603012Z