医学用語と医療事象の標準化に関する研究

文献情報

文献番号
199700344A
報告書区分
総括
研究課題名
医学用語と医療事象の標準化に関する研究
課題番号
-
研究年度
平成9(1997)年度
研究代表者(所属機関)
里村 洋一(千葉大学医学部附属病院)
研究分担者(所属機関)
  • 武田裕(大阪大学医学部付属病院)
  • 木村通男(浜松医科大学付属病院)
  • 大江和彦(東京大学医学部附属病院)
研究区分
厚生科学研究費補助金 行政政策研究分野 情報技術開発研究事業
研究開始年度
平成9(1997)年度
研究終了予定年度
-
研究費
5,000,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
医療における情報化は急速に進みつつあるが、情報交換の前提条件である、情報表現の標準化はまだやっと始まったばかりである。しかしながら、医療に関連するあらゆる局面で情報化が同時に進行しつつあり、それに伴って、標準化の作業が一斉に行われようとしている。このように異なった局面のデータ表現が、全く相互に連携なく標準化が行われるとすると、それぞれがそれぞれの目的に合わせた表現形式をとることになり、狭い範囲の利用に便利ではあっても、医療・医学の全般的観点からは、利用が困難となる。
そこで、医学用語の表現やコードの形式に関して、一般的なルールを策定する必要がある。本研究は、このいわば標準化活動の標準を定める事に挑戦したものである。
研究方法
1)基本用語集の整理 医学用語の構成要素となる基本用語(英語ではワードに相当する)を整理し、その表現手法を統一するとともに、慣用される多様な非標準表現との関連性を記述する、電子辞書の作成をおこなった。
2)米国における標準的医療用語集であるSNOMEDを用いて、これと日本語との対応について、検討を行った。
結果と考察
1.基本用語集の整理
病名の表現に用いられる約11500の基本語が集められたが、本研究では、これらの基本語を語長、細分化の可能性、について検討を加えて、8000あまりの基本語を選定した。この課程で得られた知見を整理すると,用語表現の統一のために以下の要件があることが明らかとなった。
1) 文字の正規化に関する要件
・2バイト文字と1バイト文字の混在を許さないこと
・漢字の異字体(JISコードの異なるもの)の使用ルールを決定する事(例:膣 -> 腟)
・英字(2バイト文字)の大文字小文字の使い分けルールを確定すること
・数字表記(アラビア数字、漢数字、ローマ数字)の使い分けをルール化する事
・ギリシア文字、キリル文字の使用規則を作ること
・ハイフン(-)、コネクタ(_)、カタカナの長音(―)を明確に区分する事
・スペースの介在を認めないこと
・括弧を許さないこと
以上の諸要素について、暫定的ルールを決定し、これによって病名に使われる8000あまりの基本語の表現が統一され、結果として重複する表現が削除された。ルールの決定については、日本医学会医学用語辞典の凡例に準拠する事とした。
2) 単語表記の正規化
単語の表記は基本的には、同一概念を単一の表現に集約すべきであるが、標準表現を単一に定めるとしても、慣用的につかわれ、あるいは誤用されている表現を除外するのではなく、使用者に是正を求める形の機能を補償する必要がある。そこで標準基本語には以下の付加的情報を付与することとした。
・外来の人名・地名の表記規則を決めると同時に、表記の変異を吸収する手法を付加する。実際にはカナ小文字の大文字化、長音の削除、特定音の統一(例:ヴァ→バ  ヴィ→ビ など)
・漢字とかなとカナの組合せ表記に優先語を設定する事。(例:タンパク質)
・同義語間に優先をつけること(例:睾丸―>精巣)
・誤用語の許容(誤って使用されているが定着している用語について、正しい同義語への対応づけ)
・接続規則の情報 性、型、部 などの形容詞への変化規則を各基本語に付与する。
このような規則にそって同義語検索用表現集を編集しこれと正規の表現との間の関連を記述した。
3) 用語の類似性を検定するアルゴリスムの作成
以上に挙げた要素の多くは、従来の辞書編集の際に検討されている事と共通のものが多いが、電子化したデータの取り扱いに際して、より精度の高い規則の適応と、一方では、誤りや慣用の存在を意識しこれらに対応して、正規の表現に誘導するための情報の充実が求められるのである。そこで本研究では、任意の標準外表現が現れた場合に、その表現に最も近い標準基本語を選択するアルゴリスムを検討し作成した。
このアルゴリスムでは、前記の文字の正規化を行った後に次の4種の類似性について判定する手法をとった。
1)文字種(2バイト文字のアルファベット、カタカナ、ひらがな、漢字)の構成
2)構成文字数
3)位置順の1文字対応(正順、逆順)
4)位置を無視した連結2文字対応
これらにそれぞれ重みづけをし、合計スコアーを算出して比較する手法とした。
この方法は比較的文字数の多い場合(5文字以上)に有効であることが証明されたが、3文字以下で構成される単語については、類似語候補間の差を検出する事が困難であった。基本用語集では3文字以下の単語が約60%を占めており、このような形態学的手法では、限界があることが示された。前項で述べた検索用辞書との併用が効率をよくすると思われるが、今回の研究では、実験に至らなかった。
2.英語で作成された医学用語集(SNOMED)の自動翻訳の試み
SNOMED-International (Systematized Nomenclature of Medicine)は、医学・医療に関連する用語を集めて、これをその使用領域や意味に従って分類し、独自の分類概念に従って配列しコードを与えたものである。以下の12の領域軸に分けてある。解剖学的用語、病理形態学的用語、生理機能学的用語、生物、化学物質・薬品・生物製剤、製薬会社、物理・力学的作用、職業、社会的背景、診断名、処置・手術、一般修飾語である。今回は、手術・処置について基本語(英文対応)を抽出し、これを用いてSNOMEDのP軸の半自動的翻訳を試みた。部位表現を適切に辞書化する事が必須であり、英語的表現とラテン語的表現の双方に対応する必要が指摘された。すなわち、ラテン語表現では、一単語に複数の概念が含まれており、これを分割するしなければ、基本語を利用した自動翻訳が困難になることである。そこで、たとえば「摘出」に対してRESECTIONと -ECTOMYの両方の英訳を用意し、場合によって使い分けることとした。また、これまでの研究では、部位や位置を表す基本語の準備が十分でないことが判明したので、SNOMEDの表現の内から、基本語となる単語を抽出する事とした。結果として832語(形容詞型を含む)の部位基本語、33の位置表現の基本語が抽出された。しかし、これらの日本語訳が完備しても、なお、用語の自動翻訳には十分でないことが、自動的に翻訳した用語のチェックから判明した。その理由を挙げると。
1)ラテン語表現の取り扱い論理 
2)前置詞の翻訳 
3)形容詞位置の決め方 などがある。
医学用語の整理は膨大な作業である。日本医学会の医学用語辞典の編集でも、9名の用語管理委員が3年間を用語の選択、表記の統一などに費やしている。その上で、40にも上る分科会の用語委員が最終的な検証を行った。それでも、完全に統一性、整合性のある出版物に仕上がった訳ではない。
学術の進歩や医療への社会的な要求の変化に追随して、医学用語も変転する。このような変化に遅れずに対応するには、人間の目による作業だけではとうてい困難であり、情報処理機器の応用が必須である。一方、コンピュータで使用される用語は、印刷物に表現されるものよりもさらに整合性の高いことが要求される。なぜならば、人間(特に専門家)は文字列を視認して、多少の曖昧さを含んだ用語でもその意味を理解できるのに比べて、コンピュータは、コンピュータ自身に記録されている辞書にない用語は、たとえ一文字の違いであっても、これを認識することができないからである。このような、コンピュータと人間の間のギャップを埋めるためには、人間側が、完全に標準化された用語のみを正しく使うか、もしくは、コンピュータに人間に近い曖昧さを許容した判断の能力を与えるしかない。
本研究では、基本語を標準化する事を第1の目標として、基本語の整備を行った。しかし、これらの方法のみでコンピュータと人間のギャップを完全に埋める事は困難であることから、用語間の類似性を判定する方法をも合わせて開発した。これによって、コンピュータを文字列の完全一致ではなくとも、類似性の高い用語を識別し、曖昧さを含んだままでも用語の識別が可能なレベルへと知能をひきあげ得る可能性が示された。
結論
医学用語を標準化するための基礎的研究を行った。
基本語の整備は、それぞれの領域での今後の医学用語の標準化作業に有用と思われる。
用語の類似性については、形態的分析でも、曖昧一致を扱うことはできるが、意味論的操作を加えなければ十分とはいえない事がわかった。この点で、SNOMEDの体系や、英語との意味交錯を利用することも必要であると思われる。本研究がSNOMEDの一部の翻訳を試みてその手法上の問題点を明らかにしてきたので、この結果を応用して、本格的な翻訳作業に移行できる準備ができたと考える。
また、この研究で明らかになった、用語表記の性質をこれから開発されてくる、様々な領域の用語の標準化に利用する事ができると考える。

公開日・更新日

公開日
-
更新日
-

研究報告書(紙媒体)