標準データ項目セットを用いた知的データベースによる診療根拠の動的生成に関する研究(総括研究報告書)

文献情報

文献番号

200001141A

報告書区分

総括

研究課題名

標準データ項目セットを用いた知的データベースによる診療根拠の動的生成に関する研究(総括研究報告書)

課題番号

研究年度

平成12(2000)年度

研究代表者(所属機関)

山本　隆一(大阪医科大学)

研究分担者(所属機関)

大江和彦(東京大学)
坂本憲広(九州大学)

研究区分

厚生科学研究費補助金健康安全確保総合研究分野医療技術評価総合研究事業

研究開始年度

平成12(2000)年度

研究終了予定年度

平成14(2002)年度

研究費

5,974,000円

研究者交替、所属機関変更

研究報告書（概要版）

研究目的

本研究の目的は平成11年度の厚生省による「電子保存された診療情報交換のためのデータ項目セット」開発事業の成果を利用し、この項目セットに準拠して収集された診療データから動的に診療根拠を抽出する方法を研究開発することにある。証拠に基づく診療(EBM)が重要であることは論を待たないが、一般的なEBMのように文献的な証拠に基づく場合、インフルエンザに対する抗ウイルス剤の効果のような流行性で急性の疾患への対処や、薬品の副作用などの迅速な対応を必要とする場合などでは十分な効果が期待できないことがある。例えば今年のインフルエンザにアマンタジンが効果を示すかどうかといった場合、文献的な根拠を待つことができないために、診療現場からの経験が厳密な検証なく、また統計的な処理がほとんど行われずに流布する形で現場医療に活かされている状況にある。薬品の副作用も相当な例数の蓄積と回顧的な解析が必要であるが、副作用を疑う医療現場からの報告に依存しており、疑うことが難しい状況では調査そのものも遅れる可能性がある。そしてこれらの場合、現場の印象がトリガーになる。熟練した医療従事者の印象は実際には複雑な知識背景のもとに下される判断で、高く評価する必要があるが、客観性は不十分といわざるを得ない。平成11年度に開発されたデータ項目セットは電子化診療情報を共通の標識で整理することで、異なる医療機関の診療情報を統一的に扱うことを可能とするもので、これを活用することにより、広範囲から診療情報をリアルタイムに収集することが可能になる。一方で情報工学の分野では知的データベースやデータ・マイニングと呼ばれる手法の研究が活発に行われている。これは網羅的に集められたデータの集合から意味のある関係を自動的に抽出する手法であり、人の印象に頼らないデータ解析を行うことができる。着眼点を指定しなくても動的に特異な関係を抽出できるために人が気付き難い関係や、気付くのに時間がかかる関係を早期に抽出するのに極めて有用な方法と考えられる。もちろん従来の回顧的な方法にくらべて若干の精度低下は予想されるし、背景となるべき医学理論を類推することはできない。あくまでもヒントを与える方法と考えることができ、回顧的な研究方法を併用する必要がある場合もある。しかしこの場合もすくなくとも着眼点を得るまでの時間は大幅に短縮され、医療現場へのフィードバックもそれだけ有効になることが期待できる。

研究方法

初年度の今年度の研究はデータマイニングを用いた動的な診療根拠を生成するための基礎的な研究をおこなった。データマイニングの手法の検討と評価、データ項目セットをこの目的に使用するための評価と問題点の抽出、収集データの無名性の定量化、プライバシー・センシティブな情報の分離を容易にするためのデータベース・アーキテクチャの検討と開発の4分野にわけて研究を進めた。データマイニングの手法としては相関ルール発見手法を用い、約1200例の糖尿病データベースを対象に評価を行った。また機械的に抽出したルールを淘汰するために、内部確信度の概念を導入した。データ項目セットは診療根拠の動的生成に必要になると思われる項目をあつめ、データ項目セットの項目で適用可能かどうか調査をおこなった。無名性の定量化は項目または項目の組み合わせで特定可能な人数の最小値を最小特定人数と定義し、32万件のデータで実際に計算をおこなった。データベース・アーキテクチャはHL7 ver3 RIMとデータ項目セットを基礎にプライバシー・センシティブな項目を抽出し、それらを他の項目と独立して
扱うことが可能なデータベース・アーキテクチャを検討した。

結果と考察

相関ルール発見手法は知識すなわちルールを予測できない場合のデータマイニングの手法として有効であり、今年度の実験でもルールの抽出が可能であることを示すことができた。相関ルールはルールが母集団で成立する割合を支持度、条件節が成立する場合に結果節が成立する割合を確信度と定義し、最小支持度と最小確信度を定めてルールを検索する。一般に最小確信度、最小支持度ともに、小さな値に設定すれば抽出されるルールが増加する。最小確信度は発見したルールの確かさで、下げる必要はないが、支持度は本研究の最終的な目標である、多彩で網羅的な診療情報の集積からあらかじめ予想できないルールを抽出するためにはある程度小さな値を採用する必要がある。一方で支持度を下げれば、一見、発見されるルールの数は著しく増加する。ここで問題になるのはルールの新規性であり、自明のルールあるいは既知のルールはできれば除きたい。最終的には経験ある人間が判断するか、既知の知識のデータベースを作成し、発見されたルールをスクリーニングする必要があるが、それ以前に理論的に新規性のないルールを排除することができれば効率の向上を図ることができる。今年度の研究では、条件節に複数の項目があるルールに注目し、そのルールの条件節の各項目が単独で同じ結果に結びつく確信度の最大値より、組み合わせた場合の確信度が一定以上向上した場合だけ、組み合わせたルールに新規性があると判断した。この判断基準となる確信度を内部確信度と定義し、内部確信度を変化させて、ルールが淘汰される程度を観察した。その結果、この方法を用いた場合、内部確信度を最小確信度と同じに設定しても発見されるルールは約4分の1に減少し、一定の効果が見られた。2年度目以降はさらに論理的な淘汰を検討すると同時に、得られたルールを決定木などのデータマイニングまたは知識データベースの手法でスクリーニングすることで、新規性の高いルールを抽出することを目指したい。また本研究の前提となる電子化された診療情報の収集で、項目の標準化やプライバシーの保護は必須である。項目の標準化は平成11年度に厚生省の補助によって策定された「電子化された診療情報交換のためのデータ項目セット」を基礎に、本研究の目的を達成するための問題点を抽出し、いくつかのコードセットを定める必要および、検査項目などの詳細化が必要であることが判明した。またプライバシー保護のためにはデータの可能な限りの無名化とプライバシー・センシティブな項目の分離が重要であるが、無名化の指標として最小特定人数が有効であることを示した。無名性の定量化は最小特定人数だけでは不十分で、対象項目の社会的な関心度や、プライバシーを破った場合の利益(損失)を評価する必要がある。一般にこれらは定量化がかなり困難であり、またこのような追加要素が問題になるのは最小特定人数が小さく、特定される危険がある程度大きい場合である。したがって、十分大きな値の範囲で用いる限り、最小特定人数は無名性の定量的な指標と考えることができる。またプライバシー・センシティブな情報を安全に扱うためのデータベース・アーキテクチャの基本は、これらのデータの分離であり、分離することができれば管理や情報提供に際してプライバシーの保護が容易になる。問題は分離の基準であり、種々の利用場面に適応できる標準的なデータモデルが必要になる。今年度はHL7 ver 3 RIMとデータ項目セットをデータモデルの参照モデルとして採用し、データベース・アーキテクチャの基礎を設計することができた。今後はデータマイニングシステムへのデータ提供インターフェイスなども含めて検討を進めることとしている。

結論

データマイニングに関しては、今年度は、相関ルール発見手法を適用し、導出ルール数を抑制淘汰することで、大量の診療データからなんらかの相関ルールを導出できることを確認した。しかし、導出されたルールが単なるパターンではなく、診療根拠につながりうる知識であるかどうかの検証はまだ行ってい
ない。今後は、専門家による評価などにより、導出されたルールの検証を行う必要がある。相関ルールの導出に関しては、過剰に導出されるルールからより興味深いルールだけを導出するために、確信度や時系列の情報を用いたルール導出アルゴリズムの改良を検討しており、次年度はそれらの手法を適用し有効性を検証する予定である。教師付き学習である決定木学習は利用者があらかじめ学習目標を事前に指定しなければならないため、本研究の目的である動的な診療根拠の生成に、それ単独で適用するのは難しい。しかし今回用いた相関ルール発見手法との組合せによって、決定木学習に対して学習目標をある程度機械的に設定し、学習を行うことが可能と考える。これは次年度の検討課題としたい。無名性の指標として最小特定人数が容易に計算可能で有用なことを示した。またデータ項目セットについては症状・所見コード(8項目)、診療問題コード(8項目)についての標準化作業が必要である。また、検体検査、放射線検査、生体検査、内視鏡検査、病理検査、細菌検査、超音波検査について、検査結果値の表記に関する標準化と検査結果実施記録項目セットの作成を行う必要がある。また患者基本情報を診療情報から分離した、データベースアーキテクチャが実現可能であることが示された。

公開日・更新日

公開日

更新日

研究報告書（紙媒体）

200001141A0001.pdf

200001141A0002.pdf

公開日・更新日

公開日

更新日