大規模言語モデル(LLM:Large Language Model)を活用した医薬品等の有効性・安全性評価のためのアウトカム抽出の方法論の確立に向けた研究

文献情報

文献番号
202503006A
報告書区分
総括
研究課題名
大規模言語モデル(LLM:Large Language Model)を活用した医薬品等の有効性・安全性評価のためのアウトカム抽出の方法論の確立に向けた研究
研究課題名(英字)
-
課題番号
24AC1004
研究年度
令和7(2025)年度
研究代表者(所属機関)
武藤 学(国立大学法人京都大学 医学研究科 腫瘍内科学講座)
研究分担者(所属機関)
  • 松本 繁巳(京都大学 大学院医学研究科リアルワールドデータ研究開発講座)
  • 中島 貴子(京都大学 大学院医学研究科早期医療開発学)
  • 黒田 知宏(国立大学法人京都大学 医学部附属病院)
  • 吉原 博幸(京都大学 京都大学大学院医学研究科 社会健康医学系専攻 健康情報学分野)
  • 小林 慎治(東海国立大学機構岐阜大学 医学部)
  • 粂 直人(広島大学病院 医療情報部)
  • 横田 理央(東京科学大学 総合研究院 スーパーコンピューティング研究センター)
  • 加藤 康之(新医療リアルワールドデータ研究機構株式会社 プライムソリューション部)
  • 江口 佳那(京都大学 大学院情報学研究科 システム科学コース 人間機械共生系講座 ヒューマンシステム論分野)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
令和6(2024)年度
研究終了予定年度
令和8(2026)年度
研究費
15,380,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
本研究は、武藤らの癌化学療法支援システム(CyberOncology)を基盤に、千年カルテに蓄積された多施設電子カルテの非構造化テキストを活用し、LLMにより医薬品の有効性・安全性評価に資するアウトカム抽出法を開発する。従来、治療効果や有害事象の情報は経過記録等に埋もれ、人手による確認・整理に依存していた。本研究ではこれを自動化し、医薬品評価の効率化、リアルタイム監視、治療効果判定の迅速化、リスク管理精度向上を図る。併せて現行法制度下での実装可能性を検討し、医薬品開発と医療提供の高度化を通じて患者安全と福祉の向上に貢献する。
研究方法
本研究は、オープンソース英語版LLMを日本語化したモデルを出発点に、診療ガイドライン等の医学知識学習、大規模電子カルテデータによる追加学習、実臨床データを用いた構造化精度評価へ段階的に発展させる(東京科学大学Swallow)。構造化精度とは、電子カルテ内の非コード化テキストから、診断、症状、治療内容、有害事象等の臨床情報を抽出し、解析可能な形に整理する能力を指す。研究は4系統のタスクで構成し、年度ごとに成果目標を定める。LLMのファインチューニングは3回を予定し、第1回は診療ガイドライン等による知識学習、第2・第3回はLDI保有の大規模電子カルテデータで学習する。構造化精度の到達目標は、第1回90%以上、第2回95%以上、第3回98%以上とし、各段階で精度評価、誤抽出の分析、課題抽出を行う。
結果と考察
初期段階では、現行法制度下における医療分野でのLLM開発・活用上の課題と技術的可能性を整理した。Llama3.3-Swallow-70Bを用い、千年カルテ由来の経過記録から初期学習モデルを構築し、日時、治療歴、判定、誤記、Stage分類、多言語対応等を対象に新たな評価指標を提案し実証した。Meta社Llamaモデルを量子化した検証では、5~6ビットが精度と計算資源のバランスに優れ、プロンプト表記との組合せにより量子化後の精度が変動するため、詳細な設計が精度維持に重要であることが示された。英語モデルの日本語応用では、Llama3.3-Swallow-70BおよびLlama3-Preferred-MedSwallow-70Bの検証により、日本語継続学習が事象把握を曖昧化し、とくに「年」の省略表現がタイムライン混乱を招くことが確認された。これはMeta社の多言語モデルにも共通し、日本語文法に起因する根本的課題である可能性がある。さらに、これまでのファインチューニング結果を踏まえ、がん領域のダミー経過記録約1万例を作成し、がん領域Jsonマスターでフィルタリングして医療データを抽出、Jsonデータをデータベース化した。検索用簡易アプリケーションを試作した結果、臨床研究に資する十分な検索結果が得られることを確認した。最終年度では、この検索結果の妥当性評価を行う予定である。構造化精度検証の自動化では、辞書構造・論理検証機能を備えた評価ツールを開発中であり、抽出結果の一貫性確認や論理矛盾の検出を通じて、LDIの大規模データにも対応できる基盤を整備している。今後は、医療用LLMの実運用を見据え、検証自動化の高度化が不可欠である。
結論
英語で事前学習されたLLMを日本語に適用すると、日本語構文の特性や非明示的な時系列表現により精度低下が生じる。本研究では、これに対応する新たなファインチューニング手法を導入し、日本語指示への応答精度を大きく向上させた。具体的には、LMSYS-Chat-1Mの対話履歴を翻訳し、Llama 3.1 405B Instructで日本語応答文を自動生成した上で、Llama 3.1 70Bによるスコアリングにより最良応答を選別し、重複・冗長な指示文や応答文を除外して学習データの品質を高めた。これにより、Llama3.3-Swallow-70Bでも日本語に特化したファインチューニングが可能であることが示され、医療領域での日本語LLM実装に向けた重要な成果を得た。また、LLMにより経過記録から医療データを抽出し、生成したJsonデータをデータベース化し、検索アプリケーションを用いることで、臨床研究に有用な検索結果を得られることも確認した。今後は、日本語継続学習時の性能劣化を抑制しつつ、多言語モデルの相互運用性を確保する設計原則を確立する必要がある。本研究の成果は、日本語LLMの基盤技術として、国内外の医療AI研究にも貢献しうる。

公開日・更新日

公開日
2026-05-20
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2026-05-21
更新日
-

収支報告書

文献番号
202503006Z