ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築

文献情報

文献番号
202024035A
報告書区分
総括
研究課題名
ゲノム情報および機械学習を用いた腸管出血性大腸菌の高精度型別モデルの構築
課題番号
20KA3002
研究年度
令和2(2020)年度
研究代表者(所属機関)
李 謙一(国立感染症研究所 細菌第一部)
研究分担者(所属機関)
  • 伊澤 和輝(東京工業大学 情報理工学院)
研究区分
厚生労働科学研究費補助金 健康安全確保総合研究分野 食品の安全確保推進研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究費
2,834,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
腸管出血性大腸菌(enterohemorrhagic Escherichia coli: EHEC)は、国内で年間3,000名以上の感染者が報告される公衆衛生上重要な食中毒菌である。EHEC感染症は胃腸炎症状を主徴とし、時として血便や急性腎不全である溶血性尿毒症症候群を引き起こし、毎年数名の死者が報告されている。そのため、発生源の特定や伝播経路を明らかにするために、高精度なサーベイランス法が必要とされている。
現在、国内分離株の90%以上を占める主要8血清群(O157, O26, O111など)では、反復配列多型解析 (multilocus variable-number tandem-repeat analysis: MLVA) 法を用いたサーベイランスが、国立感染症研究所を中心に行われている。MLVA法は、ゲノム中に存在する複数のリピート配列のパターンによって菌株を型別する手法であり、迅速かつ安価であるが、ゲノム中の特定部分だけを用いるため、型別能には限界がある。一方、全ゲノム情報を用いた単一塩基多型(single nucleotide polymorphism: SNP)解析は、高い型別能を有するが、迅速性や費用面で劣るため、当面はMLVA法を用いたサーベイランスが主流であり続けると考えられる。
そこで本研究では、本研究では、従来のサーベイランスで用いられている分子型別手法(反復配列多型解析法:MLVA法)および菌株情報から、全ゲノムレベルの型別情報を推測するモデルを、人工知能の一種である機械学習を用いて構築することを目指した研究を行った。
研究方法
国内で2014年から2020年に分離されたEHEC O157 192株のWGSを新たに解読し、国立感染症研究所・細菌第一部で既に解読済みのデータと合わせ、計882株のSNP解析を行った。本データを用いて、機械学習モデルの構築を行った。モデルとしては、線形回帰モデル、回帰木モデル、勾配ブースティング回帰木を使用した。入力データとしては、MLVA型の差異数、各座位でのリピート数、分離日間隔を用い、出力データとしてはSNP数とした。
結果と考察
EHEC O157計882株のSNP解析の結果、大部分の株間ではSNPとMLVAの結果は正の相関関係を示したが、大きなばらつきが認められた。さらに、MLVAに加えて分離日間隔を含めても、SNPを線形的に予測することは困難であり、機械学習等のより複雑なモデル化が必要であることが明らかとなった。機械学習モデルの構築では、勾配ブースティング回帰木モデルで精度の良い(R2値が0.8以上)機械学習モデルを作成することができた。
以上の結果から、EHEC O157におけるMLVAとSNPの関連性の解析で、両者は経時的に変化しており、単純な線形回帰ではないことが明らかとなった。このため、機械学習モデル(勾配ブースティング回帰木)を利用したSNP予測を行ったところ、R2値が0.98となるモデルを作製することができた。
結論
本研究では、SNP予測を目的とした機械学習モデルを構築した。実用化に向けて、病原性遺伝子や系統情報をモデルに加えるなどを行って、精度の向上を図る予定である。

公開日・更新日

公開日
2021-11-26
更新日
-

研究報告書(紙媒体)

収支報告書

文献番号
202024035Z
報告年月日

収入

(1)補助金交付額
3,070,000円
(2)補助金確定額
3,070,000円
差引額 [(1)-(2)]
0円

支出

研究費 (内訳) 直接研究費 物品費 2,617,973円
人件費・謝金 0円
旅費 0円
その他 216,027円
間接経費 236,000円
合計 3,070,000円

備考

備考
-

公開日・更新日

公開日
2022-07-01
更新日
-