文献情報
文献番号
201903017A
報告書区分
総括
研究課題名
多施設SS-MIX2標準化データベースからの臨床的表現型クラスタリングとその臨床エビデンス創出手法の開発研究
課題番号
19AC1004
研究年度
令和1(2019)年度
研究代表者(所属機関)
大江 和彦(東京大学医学部附属病院 )
研究分担者(所属機関)
- 中山 雅晴(東北大学 大学院医学系研究科)
- 近藤 克幸(秋田大学 本部)
- 白鳥 義宗(名古屋大学 医学部附属病院)
- 木村 通男(浜松医科大学 医学部附属病院)
- 松村 泰志(大阪大学 大学院医学系研究科)
- 津本 周作(島根大学 医学部医学科)
- 中島 直樹(九州大学 大学病院)
- 関 倫久(東京大学 医学部附属病院)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
令和1(2019)年度
研究終了予定年度
令和2(2020)年度
研究費
7,600,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
臨床エビデンスは、特定の特性を有する患者集団を事前規定し、その集団における別の臨床特性の存在を確認することで得られる。クリニカルクエスチョン(CQ)を思いつかなければ事前に集団を規定できず、存在を確認すべき臨床特性が不明で研究デザインができない。本研究では、電子カルテ由来のSS-MIX2標準化多施設臨床データベース(DB)を使用して、
1年目:①教師なし機械学習による自動クラスタリング等の手法により、臨床的表現型において共通特性をもつ集団(クラスタ)を多数自動生成し、②得られたクラスタの他の臨床情報特性を時系列変化を含めて類型化の手法を検討する。
2年目:③その臨床的特性の出現確率等の統計的特性やその臨床的意味付けを分析し、④診療中の患者の電子カルテデータから上記クラスタに自動分類し、その結果にもとづいた臨床的特性を可視化することの臨床的有用性を評価する。
1年目:①教師なし機械学習による自動クラスタリング等の手法により、臨床的表現型において共通特性をもつ集団(クラスタ)を多数自動生成し、②得られたクラスタの他の臨床情報特性を時系列変化を含めて類型化の手法を検討する。
2年目:③その臨床的特性の出現確率等の統計的特性やその臨床的意味付けを分析し、④診療中の患者の電子カルテデータから上記クラスタに自動分類し、その結果にもとづいた臨床的特性を可視化することの臨床的有用性を評価する。
研究方法
AMED研究課題「医用知能情報システム基盤の研究開発」(2015.10〜2019.3)で代表者および分担者が所属する8病院7年分の電子カルテ主要データのSS-MIX2標準化ストレージを使用し、初年度の教師なし機械学習による自動クラスタリングを実施するための分析用データセットの作成手法を確立するため、まず研究代表者の所属する1施設分のデータを用いたパイロット的なデータ分析を経て、以下の手順で分析用データセットを作成することとした。すなわち、病名データで以下のICD10コードの確定診断を有する7つの患者集団をICD10コードとともに抽出した。この分析用データセットの生成プログラムをPythonで作成し、施設を指定して自動的に分析用データセットを生成する環境が構築できた。本報告作成時点では、この手法による分析用データセットの作成は研究代表者の所属する1施設分で行った。教師なし機械学習のクラスタリング
上記の1施設分の分析用データセットを教師なし機械学習のクラスタリング手法であるK-Means++によりクラスタリングの試行をPython scikit-learnライブラリを用いて実施した。K-Means++は最初にクラスタ数を設定する必要があり、前記全データについて血液検査結果だけで7つの疾患グループに、さらに疾患グループごとにそのICD10の4桁目(細分類)を想定して8グループ程度を設定してクラスタリングを行った。
上記の1施設分の分析用データセットを教師なし機械学習のクラスタリング手法であるK-Means++によりクラスタリングの試行をPython scikit-learnライブラリを用いて実施した。K-Means++は最初にクラスタ数を設定する必要があり、前記全データについて血液検査結果だけで7つの疾患グループに、さらに疾患グループごとにそのICD10の4桁目(細分類)を想定して8グループ程度を設定してクラスタリングを行った。
結果と考察
研究代表者の病院分でのa)血液系疾患(D50-D77)、b)免疫系疾患(D80-D89)、c)内分泌代謝系疾患(E00-E87) 、d)高血圧疾患(I10-I15)、e)心不全(I50)、f)炎症性関節炎(M05-M14)、g)結合織障害(M30-M36)、h)腎糸球体・腎機能障害疾患(N00-N19)、各検体検査件数は約800万件であった。また患者別の検体検査実施件数は1700ー2000件あるものが見られた。
検体検査の項目数はまれに検査するものを含めると300項目を超えるため、1)末梢血血液検査、血糖関係、凝固系、2)生化学、3)免疫系、4)ウイルスマーカ、5)血液ガス、などの区分に分け、区分ごとにデーセットを分割する必要があると考えられた。
また、今後、得られたクラスタごとの結果分析を行い、その結果によっては、分析用データセットの作成方法の修正が必要と考えられれば修正を行うとともに、あらかじめクラスタ数を設定するK-Means++法以外のクラスタリング手法として、階層的クラスタリングも合わせて実施して結果を比較するなどを実施する必要がある。
検体検査の項目数はまれに検査するものを含めると300項目を超えるため、1)末梢血血液検査、血糖関係、凝固系、2)生化学、3)免疫系、4)ウイルスマーカ、5)血液ガス、などの区分に分け、区分ごとにデーセットを分割する必要があると考えられた。
また、今後、得られたクラスタごとの結果分析を行い、その結果によっては、分析用データセットの作成方法の修正が必要と考えられれば修正を行うとともに、あらかじめクラスタ数を設定するK-Means++法以外のクラスタリング手法として、階層的クラスタリングも合わせて実施して結果を比較するなどを実施する必要がある。
結論
電子カルテ由来のSS-MIX2標準化多施設臨床データベース(DB)を使用して、教師なし機械学習による自動クラスタリング等の手法で分析するための、臨床的表現型において共通特性をもつデータセット作成方針の確立と自動作成環境の開発を行った。試験データの抽出では、1病院分の検体検査件数で800万件以上、検体検査種別で300以上、1患者あたりの件数は多いもので1700ー2000件であった。この1施設分の分析用データセットを教師なし機械学習のクラスタリング手法K-Means++により7つの疾患グループに、さらに疾患グループごとにそのICD10の4桁目(細分類)を想定して8グループ程度を設定してクラスタリングを行った。
公開日・更新日
公開日
2020-11-02
更新日
-