電子カルテシステムにより集積したデータの診療情報解析(データマイニング)に関する研究(総括研究報告書)

文献情報

文献番号
200301048A
報告書区分
総括
研究課題名
電子カルテシステムにより集積したデータの診療情報解析(データマイニング)に関する研究(総括研究報告書)
課題番号
-
研究年度
平成15(2003)年度
研究代表者(所属機関)
秋山 昌範(国立国際医療センター)
研究分担者(所属機関)
  • 岡愼一(国立国際医療センターエイズ医療研究開発センター 臨床研究開発部長)
  • 島津章(国立京都病院臨床研究部/内分泌・代謝性疾患センター 臨床研究部長)
  • 八橋弘(国立病院長崎医療センター臨床研究部/消化器科 臨床研究部長)
  • 大内 憲明(東北大学大学院医学系研究科病態学講座腫瘍外科学分野教授)
研究区分
厚生労働科学研究費補助金 健康安全総合研究経費 医療技術評価総合研究
研究開始年度
平成15(2003)年度
研究終了予定年度
平成16(2004)年度
研究費
24,000,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
医療におけるIT革命は、コンピュータ性能と記憶媒体の飛躍的増大とアクセス速度の飛躍的向上、データベース管理技術の飛躍的向上といった技術的背景によるオーダーエントリーシステムの普及によって急速に到来した。膨大な量の診療情報が蓄積され始め、その有効活用による、より効果的かつ効率的な予防、診断、治療、リハビリテーション等の確立が切望されている。しかしながら、1980年代後半の流通業界におけるIT革命と同様に、蓄積される情報量に対して統計・解析が追いつかず、未解析情報(knowledge gap)が急速に増大するという、新たな課題が浮き彫りとなっているのが現状である。従来より医学研究においては、臨床データをリアルタイムで収集して検索し、分析する「データ収集型」ないし、予め立てた仮説に対して、臨床データを用いて検証する「仮説検証型」統計解析が用いられて来た。これらの手法では、膨大なデータの膨大な理論的組合せの中から、ごく一部を仮説として設定し検証するために、①結果の質(重要度)は解析者の洞察能力などに大きく依存し、②従って、常識の範囲を越えるような相関ルールの発見は難しく、③また、全ての仮説を網羅的に検証することは到底困難であるがゆえに、knowledge gapを増大させるに至った実状がある。本研究は、このknowledge gapを埋めるべく、膨大な倫理的組合せに対して仮説を立てることなく網羅的に解析することで、有用な知識を自動生成・発見する「知識生成型」解析システムの開発を目標とする。従って、本研究は「メディカル・フロンティア戦略」の中枢的研究として位置付けられ、本研究成果物により、21世紀医療開拓推進研究事業の対象疾患であるがん、心臓病、脳卒中、、痴呆及び骨折のみならず、各政策医療ネットワーク対象疾患を横断的に包括してその対象とし、より効果的かつ効率的な予防、診断、治療、リハビリテーション等を確立するための根拠に基づく医療(Evidence-based Medicine)の基盤となる日本人の特性に配慮した根拠(Evidence)を、網羅的かつ自動的に即時提供することが期待できる。さらに、提供可能なEvidenceは、純粋な医学的見地における統計解析のみならず、診療に際して得られた診療報酬情報や単品管理などの物流情報も包括することで、稼働済みのクリティカルパスの妥当性検証ツールやDRG/PPS導入などにおける基礎検証ツールとしての応用も可能であり、医療経済改革に対しても大きく貢献することが期待できる。
研究方法
本研究において既に終了している、流通業界や金融業界で既に実績のあるデータマイニングアプリケーションのアルゴリズムを応用・改良し、これを本研究のデータマイニングエンジンとすべき基礎研究による手法を用いてA-netのデータを解析した。これをデータマイニングの基本的アルゴリズム複合体で、機械学習技術の一つである決木導出法(decision tree induction methods:参照1)および数理技術のひとつである回転対象基底関数法(RBF法:radial basis function methods:参照2)によって解析し、その妥当性を検証した。また、これまでの成果であるA-netに登録されたHIV感染患者における治療データに対する決定木導出法、コホーネン・クラスタリング法(参照3)を用いた解析と服用効果分析に加えて、L-netに登録された肝疾患におけ
る治療データにおいても決定木導出法、コホーネン・クラスタリング法などをもちいて解析を行った。
(参照1)決定木導出法(decision tree induction methods):ノード(レコードの属性のテスト)とリーフ(レコードが収集される終点)を結びつけた、クラス判別モデルを作成するためのデータマイニング手法。
(参照2)回転対象基底関数法(RBF法:radial basis function methods):より複雑な関数の近似を得るために、ある特定点からの距離を表す基礎関数を用いて値を予測する。
(参照3)コホーネン・クラスタリング法:雑多に分布した要素の集合の中の偏りを検出し、指定した制約 条件に合うように要素を複数のグループに分類する方法。
(倫理面への配慮)
本研究で扱った診療情報はインフォームドコンセント取得済みのものを使用し、その保持には適切なセキュリティ対策を施している。
結果と考察
まず、本研究に最適化した診療情報データウェアハウスを検討し構築した。診療情報データウェアハウスへのデータ入力は即時性・正確性などを考慮して全自動を基本とする。その仕組みについては、A-netやL-netなどと協力し、既に両政策医療ネットワークで構築中のインフォームドコンセント取得済み登録患者の診療情報自動集積システムを応用し、自動集積されたXML形式診療情報を本データウェアハウスへ自動転送されるように設計した。これまでの研究で、A-netにおける抗HIV薬投与中AIDS患者の体重減少の予測因子として、血小板増加が有意な因子であることを発見した。昨年度の研究では肝疾患の予後解析モデル作成により、PIVKAが有効な予後判定因子であることを発見した。その詳細は、肝疾患の診断で最も重要な診断項目である治療効果を含む予後予測診断であり、その正診率が情報解析精度と言い替えてもよく、この分野での解析モデルを策定した。1990年から2002年の期間、国立長崎中央病院で死亡した肝疾患患者456名(男性325名、女性131名、平均年齢64歳の25?92歳)を対象とした。うち死亡時診断は肝癌346名、肝硬変慢性肝不全59名、急性肝不全14名、その他37名であった。患者情報と血液検査所見
(A1b,ALT,LDH,CHO,PIVKAなど35項目、一項目あたり約25000件)の情報をIBM Intelligent Minerを用いて分析し検査時点から1年生存できるか否かの1年余命定モデルを決定木(decision tree)手法で求めた。その結果、検査時点で(PIVKA > 8255mAU/ml)の条件を満たすと93.9%、(1034 < PIVKA < 8255)(AFP > 1215ng/ml)の2条件では91.7%の確立で1年以内に死亡するのに対し、(PIVKA < 1034)(CHO > 102mg/dl)(AFP < 531.5)の3つの条件を満たすと85.5%の確立で1年以上生存するモデルが作成された。即ち、肝癌腫瘍マーカーの絶対値と肝予備機能が肝疾患患者の生存期間に寄与することが確認された。Decision tree以外に回転対象基底関数やニューラルネットワークを用いての解析では、随時の検査値を用いて、後何年生存できるかの予後予測モデルの作成も可能であることが確認された。
今年度は国立国際医療センターにおいて、管理会計データを使用し、病院経営の改善に結びつく因子を抽出することを目的とし、データマイニング解析を試行した。対象は、2003年4月から2003年9月までの6か月間に国立国際医療センターに入退院した3,215件(実患者数2,623名)であり、このうち不正確なデータを排除した1,587件(実患者1,433名)について解析を行った。今回の解析では、損益分岐点を境に、「黒字グループと似た特徴を持つ赤字グループ」に着目し、この違いを明確にすることによって、改善に結びつく施策を導くことを目標とした。全件データを対象とした決定木分析では、救急であるか否かにより損益が分かれるが、救急の場合でも黒字化が可能なグループが存在し、病棟経費・注射・検体検査の原価回収率を向上させることで改善しうるとの結果を得た。また、診療科別の決定木分析では、救急部、小児科、呼吸器科において、特徴的な所見を見いだした。さらにRBF解析により、全件データを原価回収率別に8グループに分け、それぞれのグループ間の比較検討を行った。その結果、赤字グループでは救急患者が対象となっていることが特徴であった。小児患者では、赤字になりやすい傾向があることが判明した。小児・救急のグループ以外では、手術の有無が関与しており、手術がない場合は原価回収率が高いことがわかった。
医療情報を対象としたデータマイニングシステム開発を目的とした本研究は、その対象規模を考慮すると国内・国外に類や比較対象が存在せず、世界初の試みである。(流通業界においては、1980年代後半に本研究で応用したデータマイニング基本手法が実用化され、1999年の「Fortune」誌ランキングで上位500社のうちの80%がデータマイニングのパイロットプロジェクトを進行中か、すでに1つ以上のデータマイニングを配備し活用している。)本研究で開発したデータマイニングシステムは、従来の医学研究における「データ収集型」ないしは、「仮説検証型」統計解析と比較して、以下の特色・独創的な点を持つ。
識発見型:すなわち仮説の設定不要で意外な発見の可能性がある。②意外性の発見:予期範囲を越えた知識の検出の可能性がある。③完全制:全ての組合せに対して網羅的に検証可能である。④自動的:自動的に道の知識を検出可能である。⑤高速性:項目数に制限はなく、巨大データを処理可能である。⑥網羅性:総当たり的に全件データを処理可能である。⑦データ・タイプ:記号と数値の混在を容易に許容可能である。⑧非線形モデル:多変量解析の限界を打破し、厳密な分析が可能である。⑨定式化が不要:学習により関数/モデルを自動生成可能である。⑩容易性:統計解析の取得は不要で誰でも使える。⑪具体性:結果が具体的で分かり易い。⑫即応性:対話的に迅速出力可能で、分析効率の向上が期待できる。⑬拡張性:拡張可能な並列処理(準線形)である。以上の特色・独創的な点により、本研究は、医療情報におけるknowledge gapを埋め、本研究事業の目標である、より効果的かつ効率的な予防、診断、治療、リハビリテーション等を確立するための根拠に基づく医療(Evidence-based Medicine)の基盤となる日本人の特性に配慮した根拠(Evidence)を、網羅的かつ自動的に即時提供することが期待でき、純粋な医療的見地における統計解析のみならず、医療経済改革に対しても大きく貢献することが期待できる。
昨年度までの解析によってHIV感染症疾患のみならず肝疾患にも有用性が証明されたことから、本解析手法は医学一般に応用できると期待された。また、本年度の研究を通し、医療の経営分析、経営改善にも応用が可能であることが示唆された。今後はさらに他分野における応用が期待できる。従って、次年度以降はがんネット等と協力し、がん検診等の大規模なデータベースの分析の検討を加えたい。
結論
本研究は、医療情報におけるknowledge gapを埋め、本研究事業の目標である、より効果的かつ高率的な予防、診断、治療、リハビリテーション等を確立するための根拠に基づく医療(Evidence-based Medicine)の基盤となる日本人の特性に配慮した根拠(Evidence)を、網羅的かつ自動的に即時提供することが出来、純粋な医学的見地における統計解析のみならず、医療経済改革に対しても大きく貢献することが期待できるシステムである。

公開日・更新日

公開日
-
更新日
-