文献情報
文献番号
202003006A
報告書区分
総括
研究課題名
多施設SS-MIX2標準化データベースからの臨床的表現型クラスタリングとその臨床エビデンス創出手法の開発研究
課題番号
19AC1004
研究年度
令和2(2020)年度
研究代表者(所属機関)
大江 和彦(東京大学医学部附属病院 企画情報運営部)
研究分担者(所属機関)
- 中山 雅晴(国立大学法人 東北大学 大学院医学系研究科)
- 近藤 克幸(秋田大学)
- 白鳥 義宗(名古屋大学医学部附属病院 メディカルITセンター)
- 木村 通男(国立大学法人浜松医科大学 医学部附属病院医療情報部)
- 松村 泰志(大阪大学大学院医学系研究科 医療情報学)
- 津本 周作(島根大学医学部)
- 中島 直樹(国立大学法人九州大学 大学病院)
- 関 倫久(東京大学医学部附属病院企画情報運営部)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
令和1(2019)年度
研究終了予定年度
令和2(2020)年度
研究費
7,220,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
臨床エビデンスは、「高血圧合併2型糖尿病」のように特定の特性を有する患者集団を事前規定し、「阻害薬が有効」のようにその集団における別の臨床特性の存在を確認することで得られる。クリニカルクエスチョン(CQ)を思いつかなければ事前に集団を規定できず、存在を確認すべき臨床特性が不明で研究デザインができない。臨床の場では、患者の臨床特性で規定される集団が、別のどのような臨床特性を有するかを知りたいことが多いが、具体的なCQを思いつかないことが多く、DB駆動型のCQ自動生成、エビデンス示唆を得る手法の開発が必要である。
そこで、電子カルテ由来のSS-MIX2標準化ストレージのデータを使用して、
①教師なし機械学習による自動クラスタリング等の手法により、臨床的表現型において共通特性をもつ集団(クラスタ)を多数自動生成し、②得られたクラスタの他の臨床情報特性を時系列変化を含めて類型化の手法を検討する。③その臨床的特性の出現確率等の統計的特性やその臨床的意味付けを分析し、④診療中の患者の電子カルテデータから上記クラスタに自動分類し、その結果にもとづいた臨床的特性を可視化することの臨床的有用性を評価する、ことを目指した。
そこで、電子カルテ由来のSS-MIX2標準化ストレージのデータを使用して、
①教師なし機械学習による自動クラスタリング等の手法により、臨床的表現型において共通特性をもつ集団(クラスタ)を多数自動生成し、②得られたクラスタの他の臨床情報特性を時系列変化を含めて類型化の手法を検討する。③その臨床的特性の出現確率等の統計的特性やその臨床的意味付けを分析し、④診療中の患者の電子カルテデータから上記クラスタに自動分類し、その結果にもとづいた臨床的特性を可視化することの臨床的有用性を評価する、ことを目指した。
研究方法
1)分析用データセットの作成環境の構築
本研究では、8大学病院のSS-MIX2標準化ストレージに蓄積されている傷病名データと検体検査結果データを使用し、初年度の教師なし機械学習による自動クラスタリングを実施するための分析用データセットの作成手法を確立することが必要である。1年目の1施設でのデータでパイロット的にクラスタリングを実施した結果にもとづき、以下の手順で分析用データセットを作成することとした。
1-1) 疾患対象の絞り込み
1-2)対象期間と期間ウインドウの設定
1-3) 検体検査結果データセットの作成
1-4) 欠損値の取り扱い方法
2)クラスタリング
3)結果の可視化
方法の概要としては、3年分の病名登録データと検体検査データを取得し、それぞれにおいて、a)血液系疾患(D50-D77)、b)免疫系疾患(D80-D89)、c)内分泌代謝系疾患(E00-E87) 、d)高血圧疾患(I10-I15)、e)心不全(I50)、f)炎症性関節炎(M05-M14)、g)結合織障害(M30-M36)、h)腎糸球体・腎機能障害疾患(N00-N19)に7領域に分けたデータセットを作成した。これらのデータセットに対して、非階層的クラスター分析法として、1)PAM(Partitioning Around Modroids)法、金剛分布モデルにもとづくクラスタ分析法として、2) EM (expectation maximization) アルゴリズムによりパラメータとクラスラベル推定を行う混合分布モデル(VII:球型、異なる体積)に基づいたクラスタ分析を行い、それぞれについて分布プロットにより可視化し、考察した。
本研究では、8大学病院のSS-MIX2標準化ストレージに蓄積されている傷病名データと検体検査結果データを使用し、初年度の教師なし機械学習による自動クラスタリングを実施するための分析用データセットの作成手法を確立することが必要である。1年目の1施設でのデータでパイロット的にクラスタリングを実施した結果にもとづき、以下の手順で分析用データセットを作成することとした。
1-1) 疾患対象の絞り込み
1-2)対象期間と期間ウインドウの設定
1-3) 検体検査結果データセットの作成
1-4) 欠損値の取り扱い方法
2)クラスタリング
3)結果の可視化
方法の概要としては、3年分の病名登録データと検体検査データを取得し、それぞれにおいて、a)血液系疾患(D50-D77)、b)免疫系疾患(D80-D89)、c)内分泌代謝系疾患(E00-E87) 、d)高血圧疾患(I10-I15)、e)心不全(I50)、f)炎症性関節炎(M05-M14)、g)結合織障害(M30-M36)、h)腎糸球体・腎機能障害疾患(N00-N19)に7領域に分けたデータセットを作成した。これらのデータセットに対して、非階層的クラスター分析法として、1)PAM(Partitioning Around Modroids)法、金剛分布モデルにもとづくクラスタ分析法として、2) EM (expectation maximization) アルゴリズムによりパラメータとクラスラベル推定を行う混合分布モデル(VII:球型、異なる体積)に基づいたクラスタ分析を行い、それぞれについて分布プロットにより可視化し、考察した。
結果と考察
多施設SS-MIX2標準化ストレージの臨床データからの解析データセット構築ができ、それに対して非階層的クラスタリングを実施した。対象となった検査件数の元データ規模は、各施設で1400から9100万件と大規模で、疾患領域ごとでも大きな領域では24万件以上の規模であった。クラスタ解析では、当初目的とした臨床的に特徴が明確な小規模クラスタの検出はできなかった。しかしICD分類の3桁、4桁目を横断する複数の大きなクラスタとは別に小さなクラスタの存在が示唆された。これらのクラスらの臨床的意味付けはそれに所属するここのレコード抽出をして検討が必要であり、今後そのクラスタごとの薬剤治療別の予後や経過分類の違いを分析する必要がある。また、大きなクラスタに所属するケースを除外した多施設統合データを再解析するなどの手法の必要性も示唆された。一方、領域ごとにみても施設間で含まれるケースの多様性に大きな違いがあり、ビッグデータのままで統合することはかえって少数からなる特性集団を埋れさせる可能性が考えられた。
結論
多施設のSS-MIX2標準化ストレージから8疾患領域について検査結果値データセットを整備し、非階層的クラスタリングとモデルに基づいたクラスター分析を試みた。未知の特徴的な検査結果パターンを示すクラスターは検出できなかったが、主たるクラスタから外れる小さなクラスタが存在していることが示唆された。今後が、それに該当するケースを個々に抽出して、時系列的な検査結果値を追加して解析することが課題と考えられた。
公開日・更新日
公開日
2021-07-06
更新日
-