テキストマイニングによる薬物有害事象の自動抽出を目的としたオントロジー構築とシステム開発

文献情報

文献番号
200835022A
報告書区分
総括
研究課題名
テキストマイニングによる薬物有害事象の自動抽出を目的としたオントロジー構築とシステム開発
課題番号
H18-医療・一般-027
研究年度
平成20(2008)年度
研究代表者(所属機関)
金子 周司(京都大学 大学院薬学研究科)
研究分担者(所属機関)
  • 奥野 恭史(京都大学 大学院薬学研究科)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究分野 地域医療基盤開発推進研究
研究開始年度
平成18(2006)年度
研究終了予定年度
平成20(2008)年度
研究費
6,000,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
本研究は,ゲノム科学における情報科学的手法として発展・応用されつつあるテキストマイニング技術を医薬品の副作用(有害事象)のレポートや医療情報の解析に最適化し,日本語と英語を網羅する医療関連の用語オントロジーをテキスト解析エンジンに実装して,その評価を行いつつ,実効性のある情報解析システムを開発することによって,情報電子化時代を迎える医療における効率良く確かな安全体制の実現を,情報技術的に支援することを目的とした。
研究方法
3年目にあたる平成20年度は,シソーラスの完成と,AERSによる辞書の評価および医薬品情報のテキストマイニングを行った。辞書の評価は米国FDAが公開している世界規模の医薬品有害事象データベースAERSから医薬品名を抽出し,LSDシソーラスを用いて4万種類以上の名称を約4,500種類の統制語にマッピングした辞書を制作し,医薬品名称の解決を試みた。テキストマイニングは,2008年版のJAPIC医療用医薬品データベースに収録された全医薬品添付文書テキストに対して,LSDシソーラス専門用語へのタグづけを行った。用語頻度の集計を行い,さらに一部分を抽出して適合率と再現率の評価を行った。
結果と考察
最終的に,ツリー状に整理した2.5万語の統制語に日英約18万語の専門用語を割り当てたLSDシソーラスが完成できた。また,公開されている病名分類や薬効分類へのリンクも動的に設けることで用語に意味と属性を付与した。これら語彙資源を有害事象の自動抽出に応用するため,FDAが公開している副作用報告システムAERSに収録された世界中の医薬品名について96%以上の名前解決を行える辞書を制作した。またJAPIC医薬品添付文書のテキスト解析によって,90%以上の適合率と再現率で正しく医薬品名および疾患・症状名を抽出できた。
結論
LSDシソーラスを利用したテキスト処理は,医療文書からの有害事象の検出に極めて有用な手段であるのみならず,医療情報の解読や入力エキスパートシステムに応用できる優れた方策になると考えられる。

公開日・更新日

公開日
2009-04-14
更新日
-

文献情報

文献番号
200835022B
報告書区分
総合
研究課題名
テキストマイニングによる薬物有害事象の自動抽出を目的としたオントロジー構築とシステム開発
課題番号
H18-医療・一般-027
研究年度
平成20(2008)年度
研究代表者(所属機関)
金子 周司(京都大学 大学院薬学研究科)
研究分担者(所属機関)
  • 奥野 恭史(京都大学 大学院薬学研究科)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究分野 地域医療基盤開発推進研究
研究開始年度
平成18(2006)年度
研究終了予定年度
平成20(2008)年度
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
本研究は,ゲノム科学における情報科学的手法として発展・応用されつつあるテキストマイニング技術を医薬品の副作用(有害事象)のレポートや医療情報の解析に最適化し,日本語と英語を網羅する医療関連の用語オントロジーをテキスト解析エンジンに実装して,その評価を行いつつ,実効性のある情報解析システムを開発することによって,情報電子化時代を迎える医療における効率良く確かな安全体制の実現を,情報技術的に支援することを目的とした。
研究方法
1.シソーラス構築:病名・症候名,医薬品・化合物名などの日英専門用語あわせて18万語について,自作ライフサイエンス辞書(LSD)を中心にしてMeSHシソーラスとの照合を行い、2.5万語の統制語を定め,その上下関係をツリー状のシソーラスに整理した。
2.オントロジー構築:統制語を用いて,医薬品の作用点データベースを作成した。また,各薬物に薬効分類および化学構造タグを付与した。
3.AERSによる辞書の評価:米国FDAが公開している世界規模の医薬品有害事象データベースAERSから医薬品名を抽出し,LSDシソーラスを用いて4万種類以上の名称を約4,500種類の統制語にマッピングした辞書を制作し,医薬品名称の解決を試みた。
4.テキストマイニング:2008年版のJAPIC医療用医薬品データベースに収録された全医薬品添付文書テキストに対して,LSDシソーラス専門用語へのタグづけを行った。用語頻度の集計を行い,さらに一部分を抽出して適合率と再現率の評価を行った。
結果と考察
本研究では,LSDに収録されている専門用語の同義性や上下関係を整理し,既存の専門用語シソーラスであるMeSHと動的に関連づけ,ツリー状に整理した2.5万語の統制語に日英約18万語の専門用語を割り当てたLSDシソーラスを完成させた。また,公開されている病名分類や薬効分類へのリンクも動的に設けることで用語に意味と属性を付与した。次に,これら語彙資源を有害事象の自動抽出に応用するため,FDAが公開している副作用報告システムAERSに収録された世界中の医薬品名について96%以上の名前解決を行える辞書を制作した。またJAPIC医薬品添付文書のテキスト解析によって,90%以上の適合率と再現率で正しく医薬品名および疾患・症状名を抽出できた。
結論
このLSDシソーラスを利用したテキスト処理は,医療文書からの有害事象の検出に極めて有用な手段であるのみならず,医療情報の解読や入力エキスパートシステムに応用できる優れた方策になると考えられる。

公開日・更新日

公開日
2009-04-14
更新日
-

研究報告書(紙媒体)

公開日・更新日

公開日
2009-12-11
更新日
-

行政効果報告

文献番号
200835022C