テキストマイニングによる薬物有害事象の自動抽出を目的としたオントロジー構築とシステム開発

文献情報

文献番号
200732051A
報告書区分
総括
研究課題名
テキストマイニングによる薬物有害事象の自動抽出を目的としたオントロジー構築とシステム開発
課題番号
H18-医療-一般-027
研究年度
平成19(2007)年度
研究代表者(所属機関)
金子 周司(京都大学大学院 薬学研究科)
研究分担者(所属機関)
  • 奥野 恭史(京都大学大学院 薬学研究科)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究 医療安全・医療技術評価総合研究
研究開始年度
平成18(2006)年度
研究終了予定年度
平成20(2008)年度
研究費
6,000,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
 本研究は,テキストマイニング技術を医薬品の副作用(有害事象)のレポートや医療情報の解析に最適化し,日本語と英語を網羅する医療関連の用語オントロジーをテキスト解析エンジンに実装して,その評価を行いつつ,実効性のある情報解析システムを開発することによって,情報電子化時代を迎える医療における効率良く確かな安全体制の実現を,情報技術的に支援することを目的とした
研究方法
 ライフサイエンス辞書(LSD)には収録された約5万語の対訳について,MeSHツリー2008年版を用いて,英語によるマッチングを行った。次に,MeSHに準拠した階層化を行い,さらにLSD収録語を各グループに帰属させる作業を行った。このようにして作成したシソーラスから,関係抽出のための辞書を試作した。辞書構造は,複数存在する英語シノニムの1つ1つを代表的な日本語表記に置換し,さらに病名,物質名など5種類の属性を付与できるよう,1対1のテキストとした。
 次にPubMed抄録を題材にして,様々な英語表記を代表的な日本語訳に逐語訳するため,Perlスクリプトを制作した。また,1文中に共起する日本語訳(キーワード)を集計するPerlスクリプトを設計した。逐語訳においては,処理されたテキストをWWWブラウザでカラー表示するため,XMLタグを付与する形とした。それぞれのスクリプトは試行を繰り返し,処理速度の最適化をはかった。
結果と考察
 今年度はライフサイエンス辞書(LSD)に収録された11万語の専門対訳レコードのうち,有害事象の関係抽出に必要となると考えられる病名および症候名,薬物および生体内分子名,解剖および発生部位名,生物名,方法や研究技術を意味する約5万語の対訳について,用語の同義性や上下関係を整理し,さらに既存の専門用語シソーラスであるMeSH 2008年版とリレーショナルデータベースで動的に関連づけた。また,公開されている病名分類や薬効分類へのリレーションを設けることでLSDに拡張性を付与した。この結果,約16万語の専門用語を約2万語のツリー状に整理した見出し語(統制語)に割り当てたLSDシソーラスが全体計画の90%まで構築した。
結論
このLSDシソーラスを利用したテキスト処理は,医療文書からの有害事象の検出をはじめとして関係抽出に応用できる優れた手法になると考えられる。特に,病名と物質名のシノニムテーブルが完成したことで,医療テキストの解析に十分なシソーラスが構築できたものと思われる。

公開日・更新日

公開日
2008-04-21
更新日
-

研究報告書(紙媒体)

公開日・更新日

公開日
2009-02-04
更新日
-