文献情報
文献番号
202403011A
報告書区分
総括
研究課題名
大規模言語モデル(LLM:Large Language Model)を活用した医薬品等の有効性・安全性評価のためのアウトカム抽出の方法論の確立に向けた研究
研究課題名(英字)
-
課題番号
24AC1004
研究年度
令和6(2024)年度
研究代表者(所属機関)
武藤 学(京都大学 医学研究科)
研究分担者(所属機関)
- 松本 繁巳(京都大学 大学院医学研究科リアルワールドデータ研究開発講座)
- 中島 貴子(京都大学 大学院医学研究科早期医療開発学)
- 黒田 知宏(国立大学法人 京都大学 医学研究科)
- 吉原 博幸(京都大学 京都大学大学院医学研究科 社会健康医学系専攻 健康情報学分野)
- 小林 慎治(東海国立大学機構岐阜大学 医学部)
- 粂 直人(広島大学病院 医療情報部)
- 横田 理央(東京科学大学 総合研究院 スーパーコンピューティング研究センター)
- 加藤 康之(新医療リアルワールドデータ研究機構株式会社 プライムソリューション部)
- 江口 佳那(京都大学 大学院情報学研究科 システム科学コース 人間機械共生系講座 ヒューマンシステム論分野)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
令和6(2024)年度
研究終了予定年度
令和8(2026)年度
研究費
15,380,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
治療効果や有害事象に関する情報は、経過記録や報告書などの非構造テキストに記録されており、機械的な処理が困難で多大な人手を要している。大規模言語モデル(LLM)は、膨大なテキストを学習することで高精度な自然言語処理が可能となり、医療応用にも期待されている。
我々は千年カルテプロジェクトを通じて、多施設から収集した電子カルテの非構造情報を大量に保有しており、これを活用することで、従来手動で行っていた情報抽出作業を自動化できる可能性がある。LLMを用いたこの自動化によって、医薬品の安全性や有効性の評価、治療効果のリアルタイム分析、リスクマネジメントの精度向上が見込まれ、結果として医薬品開発と医療サービス全体の質向上に資することが期待される。
我々は千年カルテプロジェクトを通じて、多施設から収集した電子カルテの非構造情報を大量に保有しており、これを活用することで、従来手動で行っていた情報抽出作業を自動化できる可能性がある。LLMを用いたこの自動化によって、医薬品の安全性や有効性の評価、治療効果のリアルタイム分析、リスクマネジメントの精度向上が見込まれ、結果として医薬品開発と医療サービス全体の質向上に資することが期待される。
研究方法
本研究では、東京科学大学のSwallowを基盤モデルとし、電子カルテの経過記録を用いた非構造データからの構造化抽出精度を検証した。以下の5つの観点から研究を進めた。
1)構造化データ抽出機能の新評価手法:実臨床データに基づいた検証用ダミーを作成し、抽出すべき臨床項目を定義、その精度を定量的に評価。
2)量子化依存性の検証: Llama3.3-Swallow-70Bモデルに対して2~8ビット量子化を施し、抽出精度との関係を分析。5~6ビットが最適な精度・計算資源バランスを示す。
3)プロンプト表記との相互依存性:量子化の程度に応じてプロンプトの詳細度が精度に影響することを確認。特に5ビット以下では明示的な指示が有効。
4)高性能英語モデルの日本語化課題:英語モデルを日本語指示で再学習した際、年月表記の省略など日本語特有の構造によって精度低下が生じる問題を明確化。
5)構造化精度検証の自動化:辞書ベースの論理チェックを実装し、今後のLDIデータ適用に備えた柔軟な自動評価システムの開発に着手。
1)構造化データ抽出機能の新評価手法:実臨床データに基づいた検証用ダミーを作成し、抽出すべき臨床項目を定義、その精度を定量的に評価。
2)量子化依存性の検証: Llama3.3-Swallow-70Bモデルに対して2~8ビット量子化を施し、抽出精度との関係を分析。5~6ビットが最適な精度・計算資源バランスを示す。
3)プロンプト表記との相互依存性:量子化の程度に応じてプロンプトの詳細度が精度に影響することを確認。特に5ビット以下では明示的な指示が有効。
4)高性能英語モデルの日本語化課題:英語モデルを日本語指示で再学習した際、年月表記の省略など日本語特有の構造によって精度低下が生じる問題を明確化。
5)構造化精度検証の自動化:辞書ベースの論理チェックを実装し、今後のLDIデータ適用に備えた柔軟な自動評価システムの開発に着手。
結果と考察
本研究の初期段階では、現行の法制度下において医療分野でのLLM開発および活用に伴う課題と技術的可能性を整理した。Llama3.3-Swallow-70Bモデルを用い、千年カルテ由来の経過記録から初期学習モデルを構築。構造化データ抽出において、日時や治療歴、判定、誤記、Stage分類、多言語対応といった項目を対象に新たな評価指標を提案し、実証を進めた。
Meta社のLlamaモデルをベースに量子化処理を施した結果、5~6ビットが精度と計算資源のバランスに優れていた。また、プロンプト表記との組み合わせ次第で量子化後の精度が変動するため、詳細な設計が精度維持に不可欠であることも明らかになった。
英語モデルの日本語応用に関しては、Llama3.3-Swallow-70BおよびLlama3-Preferred-MedSwallow-70Bの検証結果から、日本語による継続学習は事象把握の曖昧化を招く傾向があり、とくに「年」の省略表現によってタイムラインの混乱が起こることが示された。これはMeta社の多言語モデルにも共通する現象で、日本語の文法構造に起因する根本的な課題である可能性がある。
構造化精度検証の自動化では、辞書構造・論理検証機能を備えた評価ツールの開発を進めており、LDIの大規模データにも対応できる基盤を構築中である。今後は医療用LLMの実運用を見据え、検証自動化の高度化が不可欠となる。
Meta社のLlamaモデルをベースに量子化処理を施した結果、5~6ビットが精度と計算資源のバランスに優れていた。また、プロンプト表記との組み合わせ次第で量子化後の精度が変動するため、詳細な設計が精度維持に不可欠であることも明らかになった。
英語モデルの日本語応用に関しては、Llama3.3-Swallow-70BおよびLlama3-Preferred-MedSwallow-70Bの検証結果から、日本語による継続学習は事象把握の曖昧化を招く傾向があり、とくに「年」の省略表現によってタイムラインの混乱が起こることが示された。これはMeta社の多言語モデルにも共通する現象で、日本語の文法構造に起因する根本的な課題である可能性がある。
構造化精度検証の自動化では、辞書構造・論理検証機能を備えた評価ツールの開発を進めており、LDIの大規模データにも対応できる基盤を構築中である。今後は医療用LLMの実運用を見据え、検証自動化の高度化が不可欠となる。
結論
英語で事前学習されたLLMを日本語に適用する場合、精度の低下が見られるが、これは日本語構文の特性や非明示的な時系列表現が要因である。これに対して、本研究では新たなファインチューニング手法を導入し、日本語指示への応答精度を大幅に向上させることに成功した。
その手法は、LMSYS-Chat-1Mの対話履歴を翻訳し、Llama 3.1 405B Instructを用いて日本語の応答文を自動生成するもの。続いて、Llama 3.1 70Bモデルによるスコアリング評価により最良の応答を選別する工程を組み込んだ。加えて、重複や冗長性のある指示文・応答文をフィルタリングし、学習データ全体の品質を高めた。
この一連の工程により、Llama3.3-Swallow-70Bにおいても日本語に特化したファインチューニングが可能であることが示され、医療領域での日本語LLM実装に向けた重要な成果を得た。
今後は、LLMの日本語継続学習時の性能劣化を抑制しつつ、多言語モデルの相互運用性を確保する設計原則の確立が求められる。本研究の成果は、日本語LLMの基盤技術として国内外の医療AI研究にも貢献しうる。
その手法は、LMSYS-Chat-1Mの対話履歴を翻訳し、Llama 3.1 405B Instructを用いて日本語の応答文を自動生成するもの。続いて、Llama 3.1 70Bモデルによるスコアリング評価により最良の応答を選別する工程を組み込んだ。加えて、重複や冗長性のある指示文・応答文をフィルタリングし、学習データ全体の品質を高めた。
この一連の工程により、Llama3.3-Swallow-70Bにおいても日本語に特化したファインチューニングが可能であることが示され、医療領域での日本語LLM実装に向けた重要な成果を得た。
今後は、LLMの日本語継続学習時の性能劣化を抑制しつつ、多言語モデルの相互運用性を確保する設計原則の確立が求められる。本研究の成果は、日本語LLMの基盤技術として国内外の医療AI研究にも貢献しうる。
公開日・更新日
公開日
2025-06-16
更新日
-