カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築、及び、自動構造化機能を有した入力機構の開発

文献情報

文献番号

201803008A

報告書区分

総括

研究課題名

カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築、及び、自動構造化機能を有した入力機構の開発

研究課題名（英字）

課題番号

H28-ICT-一般-008

研究年度

平成30(2018)年度

研究代表者(所属機関)

荒牧　英治(奈良先端科学技術大学院大学　研究推進機構)

研究分担者(所属機関)

若宮　翔子(奈良先端科学技術大学院大学　研究推進機構)
河添　悦昌(東京大学大学院医学系研究科　医療AI開発学講座 )

研究区分

厚生労働科学研究費補助金行政政策研究分野政策科学総合研究（臨床研究等ＩＣＴ基盤構築・人工知能実装研究）

研究開始年度

平成28(2016)年度

研究終了予定年度

平成30(2018)年度

研究費

8,730,000円

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

これまで，医療医学用語をまとめる試みは数々なされてきた．これらは主に医師・研究者などの医療者が使う用語を対象としており，電子カルテなど医療現場で扱う技術は向上しつつある．万病辞書もその辞書の一つであり，かつてない多くの用語を収載している．その一方で，近年増えつつある患者が記述したテキストを扱うためには十分な用語が収載されていない．
本研究はこれまで予定より早く医療用語のデータの収集が進んでおり，今後は，コストの許す限り人手による精査を進めていくのみが課題であると考えている．そこで最終年度である本研究は，当初の計画にはなかったこの患者表現をも一部収載しようと発展的な研究を行った．

研究方法

1. 症状オノマトペの収集
前述したように患者表現が医学表現と異なる点は次の２つである．
・語彙的ギャップ：擬音語擬態語の頻用，特にオノマトペに代表される表現．
・構造的ギャップ：複合名詞である医学用語が動詞句として表現される．
これら２つの違いを考慮して，オノマトペに特化した収集方法と，クラウドソーシングを用いて動詞句を含んだ表現を募集する方法の２つを併用して表現を収集し，標準病名との対応をとる．以降，前者を症状オノマトペ，後者を症状句と呼称する.
2. 部位リストから部位＋オノマトペ表現の自動収集
Google n-gramコーパスから「（部位）が（オノマトペ）する」という表現を収集する．
擬音語，擬態語はカタカナであるかどうかで判定する．人体部位は事前に作成した表１を用いた．
この結果，部位，オノマトペ，頻度の３つ組のリストが得られた．次に，これを精査し，不適切なものを除いたデータを構築した．
3. オノマトペ表現の標準化
次にオノマトペ表現がどのような医学表現に対応するかを人手により紐づけた．
医学表現としては，標準病名とし，部位＋オノマトペのペアで標準病名との対応を得た．
4. 症状句の収集とその方法
オノマトペと異なり，句の表現の形式は「AのB」「AがBする」「AとBがCする」など様々であり，事前に形式を決める収集はできない．患者表現を医学表現に紐付けるのではなく，逆に，医学表現を患者表現（形式は問わない）に言い換えることで収集を行った．医学表現としては＜標準病名＞を用い，クラウドソーシングにて収集した．収集方法としては，クラウドソーシングでは万病辞書の表現形から，内科学会頻度が25以上のものを対象に100名にアンケートを実施した．

結果と考察

評価の困難さ：
本研究では，オノマトペに注目した方法とクラウドソーシングを用いた方法という２つの方法により，患者症状表現の収集を行った．患者表現収集の大規模な試みの事例は研究代表者らの知る限りなく，また，既存のリソースもないため，結果の評価は困難である．
例えば，クラウドソーシングで症状の表現を収取して本リソースの網羅性を評価しようとしても，これはクラウドソーシングによる手法と同じことであり，同じデータを再現してしまうだけである．今後は，構築方法とともに評価方法を検討する必要がある．
応用可能性：
本研究は患者症状表現の収集を行った．患者表現収集の大規模な試みの事例は乏しく，どれくらいをカバーすれば全体の何％をカバーするのかも分からず，また，何が実現できるのかも分からない．評価方法とともに小規模な応用を繰り返しながら，検討することも有効であると考えている．潜在的な応用先は次のようなサービスを考えている：
（１）スマートフォンやスマートスピーカーを用いた患者症状の抽出．
患者が日常的に用いるデバイスに日々蓄積される自然文から，患者の症状の抽出を行い，想定外の有害事象やアンメットニーズの発見につなげる．
（２）待ち時間の問診票
病院の待ち時間などに患者に問診票を記載する際に，その自然文を解析し，カルテに転送するなど，病院業務の軽減につなげる．
（３）医療者-患者間コミュニケーション支援
患者表現と医療用語を結びつけた辞書により，患者と医療者の双方が，相手側の用語を知り，コミュニケーションを円滑にする教育効果が期待できる．

結論

本研究では，これまで大規模な収集が困難であった患者の症状表現の収集を行った．これは現在，ウェブ（http://sociocom.jp/~data/2019-pde/）にて公開している．

公開日・更新日

公開日

2019-11-15

更新日

研究報告書（PDF）

一括ダウンロード用PDF

表紙

カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築，及び，自動構造化機能を有した入力機構の開発に関する研究 [385.82 KB]

I. 総括研究報告カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築，及び，自動構造化機能を有した入力機構の開発 ……… 1 II. 分担研究報告 1.　病名自動抽出のための辞書リソースに関する研究　　若宮　翔子 ……… 5 2.　カルテ文章からの自動抽出した病名のクリーニングに関する研究河添　悦昌 ……… 9 III. 研究成果の刊行に関する一覧 ……… 12 [387.51 KB]

総括研究報告書

カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築，及び，自動構造化機能を有した入力機構の開発 [850.66 KB]

分担研究報告書

病名自動抽出のための辞書リソースに関する研究 [1.05 MB]

分担研究報告書

カルテ文章からの自動抽出した病名のクリーニングに関する研究 [365.69 KB]

研究成果の刊行に関する一覧表

研究成果の刊行に関する一覧 [297.56 KB]

倫理審査等報告書の写し

倫理審査等報告書の写し [1.14 MB]

公開日・更新日

公開日

2019-11-15

更新日

研究報告書（紙媒体）

文献情報

文献番号

201803008B

報告書区分

総合

研究課題名

カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築、及び、自動構造化機能を有した入力機構の開発

研究課題名（英字）

課題番号

H28-ICT-一般-008

研究年度

平成30(2018)年度

研究代表者(所属機関)

荒牧　英治(奈良先端科学技術大学院大学　研究推進機構)

研究分担者(所属機関)

若宮　翔子(奈良先端科学技術大学院大学　研究推進機構)
河添　悦昌(東京大学大学院医学系研究科　医療AI開発学講座 )

研究区分

厚生労働科学研究費補助金行政政策研究分野政策科学総合研究（臨床研究等ＩＣＴ基盤構築・人工知能実装研究）

研究開始年度

平成28(2016)年度

研究終了予定年度

平成30(2018)年度

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

これまで，医療医学用語をまとめる試みは多く，多くの医学大辞典が出版されてきた．しかし，これまでの多くの用語リソースは，トップダウン的なアプローチで専門家が定義したものであり，医療の臨床現場で実際に使用されている用語と乖離している場合もある．このため，カルテ入力をサポートするシステムを作る際に，実際に入力したい用語が収載されていないことも起こりえた．
そこで本研究では，自然言語処理により用語を抽出する機構を開発する．その結果得られた用語を精査して辞書にし，これをベースに入力支援アプリケーションを開発する．
具体的には，医療従事者が記載した電子カルテや退院サマリから症状や病名に関連する用語を辞書を用いない自然言語処理手法を用いて抽出し，そのデータを精査して「万病辞書」として辞書化し公開する．本稿では，「万病辞書」のファイル構成や統計について報告する．

研究方法

B-1.2010年1月1日から2016年12月31日の期間を対象として, 東京大学医学部附属病院の電子カルテに記載された診療記録を抽出した.
B-2. B-1で抽出した診療記録を入力として, 奈良先端大学のソーシャル・コンピューティング研究室で開発した病名抽出ツール（mednlp parser v006）で処理を施し, 症状・所見・疾患を抽出した.
（倫理面への配慮）
研究の実施に際しては, 奈良先端科学技術大学院大学情報学系の倫理承認（承認番号2016-I-30）および東京大学大学院医学系研究科の倫理承認（承認番号：11446）を得て行った.

結果と考察

結果として，退院サマリから22,434病名，診療記録から18,691,219 病名が抽出された．ただし，これらすべてが本当の病名でなく，解析エラーも含まれるため抽出された表現には病名として不適切なものも存在する．これらを整理し「万病辞書」として公開している．

本研究では，ICD-10対応標準病名マスターの病名（ICD10対応標準病名マスター V4.04，2018年4月1日改訂 [2] を利用）を含み, それに加えて医療現場で得られる症状や病名を備えた「万病辞書」を作成している．2019年3月末時点で，3つの施設から抽出・精査した362,866件の病名用語（うち，25,678件が標準病名）を収載している．同時点で，33,239件の高頻出の病名表現について医療従事者（最大3名）によるコーディングが施されており，残りについては機械学習などにより自動的に結果を付与している．なお，コーディングの信頼度を明示するために，標準病名マスターに記載されているもの，人手でコーディングされたもの，機械により自動コーディングされたものなどをそれぞれ区別している．また，人手でコーティングされたものについては，1名がコーディングしたものと2名以上がコーディングしたものを区別し，さらに，後者についてコーディング結果の一致度を考慮した区別を行い，辞書リソース化している．さらに，日本語形態素解析器として代表的なMecab用辞書も作成して提供している．
本事業終了後も用語精査作業は継続して実施しており，2019年5月半ば時点で，標準病名または人手でのコーディングが行われた病名（信頼度LEVEL: S, AからC）は73,342件であった．これは，全体に占める割合の20％であるが，特定の病院の電子カルテや退院サマリにおいて頻出する病名表現については，概ねカバーできていると考えられる．今後，人手によりコーディングされた病名データを学習データとして用いて機械学習モデルを更新し，人手でのコーディングが行われていない病名に対するコーディング情報を更新することなどが期待される．

結論

本研究では，これまで大規模な収集が困難であった病名や症状などの医学表現の収集を臨床文書から行った．この結果，構築された「万病辞書」は臨床現場で実際に使われる病名はほぼ網羅されたと期待される．本事業終了後も，各病名の出現形に付随する情報（ICD10, ICD11, MedDRA，HPOなど）の精査や追加を継続して進める予定である．また，これらの用語を活用した入力支援ツールについて試作を行った．この評価も今後の課題である．

公開日・更新日

公開日

2019-11-15

更新日

研究報告書（PDF）

一括ダウンロード用PDF

表紙

カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築，及び，自動構造化機能を有した入力機構の開発に関する研究 [357.28 KB]

I. 総合研究報告カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築，　　　　　及び，自動構造化機能を有した入力機構の開発に関する研究 ……… 1 II. 研究成果の刊行に関する一覧表 ……… 5 [355.01 KB]

総合研究報告書

カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築，及び，自動構造化機能を有した入力機構の開発に関する研究 [899.33 KB]

研究成果の刊行に関する一覧表

研究成果の刊行に関する一覧表 [211.43 KB]

公開日・更新日

公開日

2019-11-15

更新日

研究報告書（紙媒体）

行政効果報告

文献番号

201803008C

成果

専門的・学術的観点からの成果

開発した辞書は，２０２１年度以降，２００ダウンロードを超え，現在でも，多くの研究に引用されている．

臨床的観点からの成果

とくになし．

ガイドライン等の開発

該当せず．

その他行政的観点からの成果

公的機関から論文のラベリングなどへの打診があった．

その他のインパクト

該当せず．

発表件数

原著論文（和文）

0件

原著論文（英文等）

0件

その他論文(和文)

0件

その他論文(英文等)

0件

学会発表(国内学会)

0件

学会発表(国際学会等)

0件

その他成果(特許の出願)

0件

その他成果(特許の取得)

0件

その他成果(施策への反映)

0件

その他成果(普及・啓発活動)

0件

特許

主な原著論文20編（論文に厚生労働科学研究費の補助を受けたことが明記された論文に限る）

公開日・更新日

公開日

2023-05-29

更新日

収支報告書

文献番号

201803008Z