文献情報
文献番号
201903003A
報告書区分
総括
研究課題名
電子カルテと連携する音声認識システムのニーズ把握及び音声認識システムに用いられる医療用語辞書の編纂に関する研究
課題番号
H29-ICT-一般-003
研究年度
令和1(2019)年度
研究代表者(所属機関)
野田 和敬(国立大学法人千葉大学 医学部附属病院)
研究分担者(所属機関)
- 生坂 政臣(国立大学法人千葉大学 医学部附属病院)
- 傳 康晴(国立大学法人千葉大学 大学院人文科学研究院)
- 鈴木 隆弘(国立大学法人千葉大学 医学部附属病院)
- 大平 善之(国際医療福祉大学 医学部)
- 上原 孝紀(国立大学法人千葉大学 医学部附属病院)
- 島井 健一郎(国立大学法人千葉大学 医学部附属病院)
- 中田 孝明(国立大学法人千葉大学 大学院医学研究院)
- 新津 富央(国立大学法人千葉大学 大学院医学研究院)
研究区分
厚生労働科学研究費補助金 行政政策研究分野 政策科学総合研究(臨床研究等ICT基盤構築・人工知能実装研究)
研究開始年度
平成29(2017)年度
研究終了予定年度
令和1(2019)年度
研究費
6,886,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
診療業務の効率化は限られた医療資源への負荷を軽減する上で重要であり、それを達成するひとつの手段として電子カルテと連携する音声認識技術の活用に期待が寄せられている。平成29・30年度の調査結果より、1.音声による電子カルテ操作、2.救急対応時の処置等の記録や身体所見の記録などのハンズフリー用途、3.医療面接や病状説明などの音声自動テキスト化に関する辞書編纂および分析を行った。
研究方法
1.として「電子カルテ項目名」の標準呼称案の作成および「薬剤名辞書」の整備を行った。また、医療面接の音声自動テキスト化(3.)の精度向上に今後必要となる要素についての分析を行った。2.の救急場面以外でのハンズフリー用途として身体所見用辞書の編纂を行った。
電子カルテ項目名の標準呼称案の作成については、主要電子カルテベンダーから項目名称を収集し、標準呼称案を作成した。薬剤名辞書編纂については、医薬品データベースを元に医薬品の呼称のリスト化および、音声認識用辞書編纂を行った。医薬品データベースとしては当院で作成した医薬品マスターを用いた。辞書の有効性は、処方実績に基づく上位200薬剤を選定し、3名の医師が読み上げ、その認識精度を測定し、検証した。医療面接の音声自動テキスト化の精度向上に関する分析については、医療面接の音声自動テキスト化について、適用する辞書・言語モデルならびに音響モデルを変えて音声認識率を比較した。各モデルの構築に必要な実発話データとして千葉大学医学部附属病院総合診療科での医療面接時の音声を収録し、手作業でのテキストへの書き起こしを行った。また、カルテ記載テキストとして、同科での約2万件のカルテ記載データを用いて、言語モデル(発音辞書)の構築を行った。それらのデータを用いて、言語モデル、音響モデル、医師および患者の発話、集音機材などに対する音声認識率の差異について分析を行った。身体所見記載に関する辞書編纂については、MEDIS-DCの「症状所見マスター<身体所見編>」を用いて、実地医家で頻用されると思われる用語を選定し、音声認識を目的とした辞書編纂を行い、有効性を検証した。
電子カルテ項目名の標準呼称案の作成については、主要電子カルテベンダーから項目名称を収集し、標準呼称案を作成した。薬剤名辞書編纂については、医薬品データベースを元に医薬品の呼称のリスト化および、音声認識用辞書編纂を行った。医薬品データベースとしては当院で作成した医薬品マスターを用いた。辞書の有効性は、処方実績に基づく上位200薬剤を選定し、3名の医師が読み上げ、その認識精度を測定し、検証した。医療面接の音声自動テキスト化の精度向上に関する分析については、医療面接の音声自動テキスト化について、適用する辞書・言語モデルならびに音響モデルを変えて音声認識率を比較した。各モデルの構築に必要な実発話データとして千葉大学医学部附属病院総合診療科での医療面接時の音声を収録し、手作業でのテキストへの書き起こしを行った。また、カルテ記載テキストとして、同科での約2万件のカルテ記載データを用いて、言語モデル(発音辞書)の構築を行った。それらのデータを用いて、言語モデル、音響モデル、医師および患者の発話、集音機材などに対する音声認識率の差異について分析を行った。身体所見記載に関する辞書編纂については、MEDIS-DCの「症状所見マスター<身体所見編>」を用いて、実地医家で頻用されると思われる用語を選定し、音声認識を目的とした辞書編纂を行い、有効性を検証した。
結果と考察
薬剤名辞書の効果を標準辞書と比較した結果、口元マイクを用いた場合で約36%、マイクロフォンアレーを用いた場合で約32%の正答率の向上が得られた。医療面接の自動テキスト化においては、音響モデルでは収録音声データのみから構築したモデルを用いた場合に、言語モデルでは「日本語話し言葉コーパス(CSJ)+医療面接時の書き起こしテキスト+カルテ記載テキスト」から構築したモデルを用いた場合に、最も認識精度が高かった。約240時間分のCSJデータよりも約40時間分の収録音声データから構築した音響モデルの方が高い認識率を示したことは注目すべき点である。言語モデルでは「CSJ+医療面接時の書き起こしテキスト」の汎用モデルに特定領域のテキストデータ(今回は総合診療科カルテ記載テキスト)を追加することによって連続音声認識をその領域に適応させられる、ということが示された。医師と患者の発話では、患者の発話の認識精度が低くなる傾向があった。収録機材では、マイクロフォンアレーよりもピンマイクを用いた場合の認識精度が高く、今回の評価対象ではビームフォーミング技術よりも発話源にマイクをできるだけ近づけることの方がより有利であった。また、実際の医療面接を収録した音声よりも、その書き起こしテキストの読み上げを収録した音声の場合に大幅な認識率の向上が得られたことから、発話の際の意識の違いも認識精度に大きな影響を与えることが示された。医療面接時の音声自動テキスト化の精度向上に関する今後の対策として、1. より一層の言語モデル・音響モデルの改良、2. 歪みの少ないノイズ低減処理、3. 室内残響の低減、4. Voice Activity Detection(VAD)の高度化、が挙げられる。身体所見用辞書の効果を標準辞書と比較した結果、身体所見用語のみの認識では、口元マイクを用いた場合で約35%、マイクロフォンアレーを用いた場合で約36%の正答率の向上が得られた。所見用語と判定用語を組み合わせた身体所見パターンの認識もほぼ同等の精度が得られた。用語と判定用語を組み合わせて登録する方法により、収載された用語であれば実用的なレベルで認識されることが実証できたことから、今後は身体所見記載に用いられる用語を拡充すること、それらに付随する判定用語も合わせて充実させることが有益と考えられる。
結論
電子カルテ項目名辞書、薬剤名辞書、身体所見用辞書はマスター等からの具体的な処理手順を整理し、それらによる有効性を実証した。医療面接の音声自動テキスト化については実発話データおよび特定領域に関連したテキストデータの集積が重要である。
公開日・更新日
公開日
2020-11-02
更新日
-