ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築

文献情報

文献番号
202224038A
報告書区分
総括
研究課題名
ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築
課題番号
20KA3002
研究年度
令和4(2022)年度
研究代表者(所属機関)
李 謙一(国立感染症研究所 細菌第一部)
研究分担者(所属機関)
  • 伊澤 和輝(東京工業大学 情報理工学院)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究分野 食品の安全確保推進研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究費
2,560,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
腸管出血性大腸菌(enterohemorrhagic Escherichia coli: EHEC)は、国内で年間3,000名以上の感染者が報告される公衆衛生上重要な食中毒菌である。EHEC感染症は胃腸炎症状を主徴とし、時として血便や急性腎不全である溶血性尿毒症症候群を引き起こし、毎年数名の死者が報告されている。そのため、発生源の特定や伝播経路を明らかにするために、高精度なサーベイランス法が必要とされている。
現在、国内分離株の95%以上を占める主要8血清群(O157, O26, O111など)では、反復配列多型解析 (multilocus variable-number tandem-repeat analysis: MLVA) 法を用いたサーベイランスが、国立感染症研究所を中心に行われている。MLVA法は、ゲノム中に存在する複数のリピート配列のパターンによって菌株を型別する手法であり、迅速かつ安価であるが、ゲノム中の特定部分のみを用いるため、型別能には限界がある。一方、全ゲノム情報を用いた単一塩基多型(single nucleotide polymorphism: SNP)解析は、高い型別能を有するが、迅速性や費用面で劣るため、当面はMLVA法を用いたサーベイランスが主流であり続けると考えられる。
そこで本研究では、従来のサーベイランスで用いられている分子型別手法(MLVA法)および菌株情報から、全ゲノムレベルの型別情報を推測するモデルを、人工知能の一種である機械学習を用いて構築することを目指した研究を行った。
研究方法
2013年から2021年に分離されたEHEC O26の585株、O111の285株についての全ゲノム配列解析を行い、機械学習用データの作製を行った。任意の2株間のSNP数のデータのうち、25%を機械学習モデルの評価用として分割し、残りの75%を機械学習モデルの構築用のデータとして用いた。
予測結果として、各株ペア間のSNP数を直接計算する連続値の予測と、各株ペアが10 SNPまたは20 SNPを閾値とした場合に近縁株であるか否かを予測するカテゴリの予測を行った。機械学習モデルの評価として、近縁株を検出する能力を敏感度、特異度、陽性的中率、および陰性的中率の4種の指標を用いた。近縁株の定義としては、O157のMLVAでは1アリール以内の差異、O26およびO111では同一のMLVA型、を用いた。機械学習モデルでは、最も成績の良かった10か所以内・11か所以上のカテゴリ分けデータを用いた。
結果と考察
国内で2013年から2021年に分離されたEHEC O26の585株およびO111の285株についてSNP解析を行い、機械学習用のデータを作製した。作成データを用いて機械学習モデルの構築を行った。モデルとしては、O157で用いたものと同様の勾配ブースティング回帰木を使用した。この結果、カテゴリの予測の場合の方が、連続値の予測の場合よりも精度が高かった。いずれの血清型においても、再現度が75%以上となり、高精度に近縁株を推定することが可能であった。さらに、2年度目および3年度目に構築したモデルの評価を行った。この結果、敏感度(SNPで10以内のペアを「近縁株」として検出する割合)の顕著な増加が認められた。O26およびO111では、O157のモデル構築で用いたcladeのような細分類は存在しないため、O157に比べて推定の精度は低かった。しかし、MLVA単独で近縁株を予測する場合に比べて、より多くの近縁株を抽出することが可能であった。
結論
O26およびO111においても、機械学習モデルによって、近縁株を抽出することが可能であった。両血清型はO157に比べてデータ量が不足しており、今後サーベイランスで本モデルを活用しながら制度を改善させることが望ましいと考えられた。

公開日・更新日

公開日
2023-06-04
更新日
-

研究報告書(紙媒体)

文献情報

文献番号
202224038B
報告書区分
総合
研究課題名
ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築
課題番号
20KA3002
研究年度
令和4(2022)年度
研究代表者(所属機関)
李 謙一(国立感染症研究所 細菌第一部)
研究分担者(所属機関)
  • 伊澤 和輝(東京工業大学 情報理工学院)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究分野 食品の安全確保推進研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
腸管出血性大腸菌(enterohemorrhagic Escherichia coli: EHEC)は、国内で年間3,000名以上の感染者が報告される公衆衛生上重要な食中毒菌である。EHEC感染症は胃腸炎症状を主徴とし、時として血便や急性腎不全である溶血性尿毒症症候群を引き起こし、毎年数名の死者が報告されている。そのため、発生源の特定や伝播経路を明らかにするために、高精度なサーベイランス法が必要とされている。
現在、国内分離株の95%以上を占める主要8血清群(O157, O26, O111など)では、反復配列多型解析 (multilocus variable-number tandem-repeat analysis: MLVA) 法を用いたサーベイランスが、国立感染症研究所を中心に行われている。MLVA法は、ゲノム中に存在する複数のリピート配列のパターンによって菌株を型別する手法であり、迅速かつ安価であるが、ゲノム中の特定部分のみを用いるため、型別能には限界がある。一方、全ゲノム情報を用いた単一塩基多型(single nucleotide polymorphism: SNP)解析は、高い型別能を有するが、迅速性や費用面で劣るため、当面はMLVA法を用いたサーベイランスが主流であり続けると考えられる。
そこで本研究では、従来のサーベイランスで用いられている分子型別手法(MLVA法)および菌株情報から、全ゲノムレベルの型別情報を推測するモデルを、人工知能の一種である機械学習を用いて構築することを目指した研究を行った。
研究方法
O157、O26、およびO111においてそれぞれ計1,636株、585株、および285株の全ゲノム配列から単一塩基多型(single nucleotide polymorphism:SNP)を抽出して、機械学習用のデータを作製した。これらのデータを用いて、勾配ブースティング回帰木モデルでMLVAデータからSNPの予測を行う機械学習モデルを作製した。予測結果として、各株ペア間のSNP数を直接計算する連続値の予測と、各株ペアが10 SNPまたは20 SNPを閾値とした場合に近縁株であるか否かを予測するカテゴリの予測を行った。機械学習モデルの評価として、近縁株を検出する能力を敏感度、特異度、陽性的中率、および陰性的中率の4種の指標を用いた。近縁株の定義としては、O157のMLVAでは1アリール以内の差異、O26およびO111では同一のMLVA型、を用いた。機械学習モデルでは、最も成績の良かった10か所以内・11か所以上のカテゴリ分けデータを用いた。
結果と考察
勾配ブースティング回帰木モデルで精度の良い(R2値が0.8以上)機械学習モデルを作製が可能であった。さらに精度を向上させるために、MLVA型のデータを各Cladeに分割し、各ペアのSNP数を予測することを試みた結果、カテゴリの予測の場合の方が、連続値の予測の場合よりも精度が高かった。また、clade 2,3,および8では、80%以上の再現性で近縁株を予測できることが明らかとなった。加えて、EHEC O26およびO111のSNPデータセットを用いた機械学習モデルの構築を行った。モデルとしては、O157で用いたものと同様の勾配ブースティング回帰木を使用した。この結果、カテゴリの予測の場合の方が、連続値の予測の場合よりも精度が高かった。いずれの血清型においても、再現度が75%以上となり、高精度に近縁株を推定することが可能であった。
結論
本研究では、EHEC O157、O26、およびO111を対象にSNP予測を目的とした機械学習モデルを構築し、MLVA結果から、ゲノムレベルでの近縁株を抽出することが可能となった。今後サーベイランスで本モデルを活用しながら精度を改善させることが望ましいと考えられた。

公開日・更新日

公開日
2023-06-04
更新日
-

研究報告書(紙媒体)

行政効果報告

文献番号
202224038C

収支報告書

文献番号
202224038Z
報告年月日

収入

(1)補助金交付額
2,790,000円
(2)補助金確定額
2,790,000円
差引額 [(1)-(2)]
0円

支出

研究費 (内訳) 直接研究費 物品費 1,628,212円
人件費・謝金 709,800円
旅費 0円
その他 221,988円
間接経費 230,000円
合計 2,790,000円

備考

備考
-

公開日・更新日

公開日
2023-11-13
更新日
-