ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築

文献情報

文献番号
202124025A
報告書区分
総括
研究課題名
ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築
課題番号
20KA3002
研究年度
令和3(2021)年度
研究代表者(所属機関)
李 謙一(国立感染症研究所 細菌第一部)
研究分担者(所属機関)
  • 伊澤 和輝(東京工業大学 情報理工学院)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究分野 食品の安全確保推進研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究費
2,685,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
腸管出血性大腸菌(enterohemorrhagic Escherichia coli: EHEC)は、国内で年間3,000名以上の感染者が報告される公衆衛生上重要な食中毒菌である。EHEC感染症は胃腸炎症状を主徴とし、時として血便や急性腎不全である溶血性尿毒症症候群を引き起こし、毎年数名の死者が報告されている。そのため、発生源の特定や伝播経路を明らかにするために、高精度なサーベイランス法が必要とされている。
現在、国内分離株の95%以上を占める主要8血清群(O157, O26, O111など)では、反復配列多型解析 (multilocus variable-number tandem-repeat analysis: MLVA) 法を用いたサーベイランスが、国立感染症研究所を中心に行われている。MLVA法は、ゲノム中に存在する複数のリピート配列のパターンによって菌株を型別する手法であり、迅速かつ安価であるが、ゲノム中の特定部分のみを用いるため、型別能には限界がある。一方、全ゲノム情報を用いた単一塩基多型(single nucleotide polymorphism: SNP)解析は、高い型別能を有するが、迅速性や費用面で劣るため、当面はMLVA法を用いたサーベイランスが主流であり続けると考えられる。
そこで本研究では、従来のサーベイランスで用いられている分子型別手法(MLVA法)および菌株情報から、全ゲノムレベルの型別情報を推測するモデルを、人工知能の一種である機械学習を用いて構築することを目指した研究を行った。
研究方法
国内で2020年から2021年に分離されたEHEC O157 192株のWGSを新たに解読し、国立感染症研究所・細菌第一部で既に解読済みのデータと合わせ、計1,636株のSNP解析を行った。本データを用いて、勾配ブースティング回帰木を使用した機械学習モデルの改良を行った。任意の2株間のSNP数のデータのうち、Clade 2、3、7、8の各Clade内のペアのみを抽出した。各Cladeにおいて、25%を機械学習モデルの評価用として分割し、残りの75%を機械学習モデルの構築用のデータとして用いた。予測結果として、各株ペア間のSNP数を直接計算する連続値の予測と、各株ペアが10 SNPまたは20 SNPを閾値とした場合に近縁株であるか否かを予測するカテゴリの予測を行った。
結果と考察
計1,636株のSNPデータセットを用いた機械学習モデルの構築を行った。モデルとしては、勾配ブースティング回帰木を使用した。MLVA型のデータを各Cladeに分割し、各ペアのSNP数を予測することを試みた結果、カテゴリの予測の場合の方が、連続値の予測の場合よりも精度が高かった。また、clade 2,3,および8では、80%以上の再現性で近縁株を予測できることが明らかとなった。さらに、クラスター化された株について病原性等の情報を自動的に得られるプログラムによって、集団感染等が起こった際の危険度を予測することが可能になった。
モデル構築の際には、cladeの細分類後にSNPの予測をすることで、著しく精度の向上が認められることが明らかとなった。各cladeでの精度では、clade 7で精度が比較的低かったが、これは同cladeでは近縁株が比較的少なく、学習が十分でなかったことが原因として考えられる。今後、本モデルでの近縁株予測精度について、従来の方法(主にMLVA型のみで判断)との差異を検証する必要がある。
結論
本研究では、SNP予測を目的とした機械学習モデルの改善を行った。今後は、実際の集団感染事例を対象に解析やモデルの改善を行うことで、本モデルの実用化を目指す。

公開日・更新日

公開日
2022-06-02
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2022-06-02
更新日
2022-09-27

研究報告書(紙媒体)

収支報告書

文献番号
202124025Z
報告年月日

収入

(1)補助金交付額
2,915,000円
(2)補助金確定額
2,915,000円
差引額 [(1)-(2)]
0円

支出

研究費 (内訳) 直接研究費 物品費 2,414,569円
人件費・謝金 0円
旅費 0円
その他 270,431円
間接経費 230,000円
合計 2,915,000円

備考

備考
-

公開日・更新日

公開日
2023-09-05
更新日
-