文献情報
文献番号
199800784A
報告書区分
総括
研究課題名
診療記録記載用語の標準化と構造化に関する研究
課題番号
-
研究年度
平成10(1998)年度
研究代表者(所属機関)
里村 洋一(千葉大学医学部附属病院)
研究分担者(所属機関)
- 木村通男(浜松医科大学付属病院)
- 廣瀬康行(琉球大学医学部附属病院)
研究区分
厚生科学研究費補助金 健康安全確保総合研究分野 医療技術評価総合研究事業
研究開始年度
平成10(1998)年度
研究終了予定年度
平成11(1999)年度
研究費
5,500,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
情報処理システムが医療の効率を上げ、質の向上をもたらすと期待されているが、それは、個々の医療行為の情報化そのものによってではなく、記録された情報の交流とその共通利用によって実現される。情報の共有の前提として、データの標準化や通信手法の規格化、さらにそれに伴う危険を回避するための安全が要求される。中でも、データの標準化は最も基本的な要素であって、かつ最も困難な課題である。なぜならば、通信や安全性の問題に比べて、はるかに要因が複雑であり、また、医療の内容に密接しており、これまで閉鎖的と言われてきた医療の体質を強く反映しているからである。申請者らは、長年、医療情報システムの開発と普及に当たっており、早くからこの問題に挑戦してきた。既に、病名(診断名)については、「ICD10対応標準病名集」の形で、その研究成果を応用した。また、他の医療用語、たとえば医療行為(手術や処置)や病理診断、検査所見などについても、その構造や用語法についての研究を展開してきた。研究課題はその一つである症状・診察所見・検査所見について、用語の標準化に必要な要素の抽出と用語の選択、これら用語の相互関係の構造化に挑戦することである。この成果によって、電子化診療録に記載されるデータの一貫性と統一性を得ることが期待できる。
研究方法
本研究では、症状と診察や検査の所見を記載するための用語集開発を行う。そのために、次の3段階に分けて研究している。1)内外の用語集や臨床研究誌から、この領域の用語を収集し、選択して用語の抽出を行い、次いで、2)これら用語の階層構造を定義して構造化する。さらに、一部の用語について、3)臨床の現場での利用に供しその実用性を検証する。本年度はこのうち1)と2)の一部を行うこととし、そのためのソフトウエアー開発に主点をおいて研究した。具体的には、1)基本語(用語を構成する基本的な意味単位)の抽出と整理 2)類似語抽出のシステム の二つである。
結果と考察
基本語の抽出:既に抽出された日本語の基本語については、研究者らがこの数年来開発してきた1100余りの病名基本語がある、この内、今回の症状や所見に属する用語が266ありこれを優先的に採用することとした。一方、これを補うために、SNOMEDのFUNCTION軸から、基本語(英語)を抽出する作業をおこなった。現在約400の基本語が抽出されているが日本語訳の付与が進行中である。 構造化:用語を構造化する方法には、大きく分けて2通りある。一つは、ある一定の視点から対象の事象を分類し、その分類概念に基づいて用語を階層的に配置するものである。たとえば、ICD-10準拠の病名集はこの例である。もう一つは、用語をその構成する最小の意味単位に分解し、用語をその構成要素の組合せとして理解し、どの構成要素のからも検索可能なような意味ネットワークを構成するものである。前者は、分類概念が使用者の間で共通のものとして理解されており、かつ、分類の目的に対応した利用が行われる場合に便利である。後者は、構造が複雑で統一的な分類概念が当てはまらないことから、外見では理解されにくいが、個々の利用の目的に応じた情報検索を可能とする。特にコンピュータを利用した検索や利用には適している。本研究では、電子カルテ等によって日常診療に利用される医学用語の体系化を目指していることから、後者の形の構造化を図る事とした。意味単位:用語を意味単位に分解する場合には、意味単位とは何かを定義する必要がある。日本語のように主として表意文字を用いる場合には、最小の意味単位として個々の文字を用いることもできる。しかし、表意文字といえども、用
字法や対象領域によってその意味が異なることがしばしばであり、一律に一文字を意味単位として扱うことに困難がある。たとえば「疼痛」の「疼」と「痛」を分離するのは言語学的には正当であっても、医療では意味がない。そこで、この研究では、最小意味単位(ATOM)を医学や医療における常識的な認識の範囲に置いて設定する事とした。たとえば、「疼痛」「痛」「痛み」「いたみ」は同義であると見なして、これらを全てATOMとする。これに対して、複数のATOMが組み合わされた場合に、これを用語(TERM)と呼ぶ。英語ではTERMとATOMの間に単語(WORD)の概念が存在するが、日本語では必要とされない。WORDは形態学的にスペースで区切られる単位であるが、日本語ではこれに相当する区分子が存在しないからである。ただし、英語と日本語の連携を考えるとき、ATOMとTERMの中間にWORDの概念を挿入する必要がある。この場合、日本語のATOMをそのまま英語のWORDに対応させることができよう。なお、全てのATOMはTERMでもありうる。属性の記述:全ての要素(ATOM、TERM)はそれぞれの中で一定の分類が行われる。すなわち、医学用語全般を扱う場合にATOMの分類は、部位、臓器、病変、病因、症候、所見、機器、手技、薬剤、時間要素、量的要素、社会要素、接続表現、固有名詞などであるが、本研究で対象とする症状・症候の場合、この分類は単純化され、部位、臓器、症状、時間要素、量的要素、固有名詞などに限定される。この他の属性として、品詞(形容詞の場合は対応する名詞)、仮名表現、SNOMEDコード、ISO概念表現(ISO/TC215において検討されている医学概念の国際表現)等を持つ。C4 辞書編集ツール:上記の様な構造を持った用語集を編集するためには、専用のデータベース検索システムを準備することが必要である。このシステムには以下の能力が要求される。1)用語を既知のATOMに分解する機能(パーシング)2)用語の表現を正規化する機能 漢字の統一、1バイト文字の排除 、スペース、括弧等記号の整理 3)新規のATOMを登録する機能 4)類似の用語を検索する機能 1)と2)については、研究者等がこの数年間で開発した正規化プログラムが利用できるので、本件研究では、用語の類似性を検索するとともに、新規のATOMの発見を支援し登録する機能を持ったシステムの開発を行った。現在作成されているシステムの処理過程は以下の様である。通常、数万に上る用語を検索しこれらの中から類似性のある用語を見つけだすのは、骨の折れる作業である。人手で行う場合には、数十人が分担して何ヶ月もの期間をようしてやっと可能な作業である。本システムを利用することによって、一用語に対して類似のものを抽出するのに数秒しか必要としない。
分担研究者廣瀬による辞書編修ツールの検証が行われ、いくつかの問題点が指摘された。一つは、SNOMEDの意味構造が十分反映できていないということ、もう一つは、このような意味関係処理は、要素が一意に固定された状態では十分機能を果たせないと言うことである。すなわち、いずれの言語要素もその文脈によって働きが変化することである。前者に対しては、分担研究者が指摘しているように、SNOMED自身の構造にも問題があり、SNOMED-RTの作業進行に期待がかかっている。辞書編集は最終的に人手、しかもそれぞれの領域の専門家を要する作業である。従来は、この作業の第1段階(リスト作成)から人手に頼り、しかもそれぞれの担当者が必ずしも統一的な基準で行うとは限らない環境で作業が行われてきた。これでは、統一性のある辞書編成は大変な難事業となってしまう。そこで、コンピュータを利用した能率的かつ一貫性のある辞書編集を支援するためのツールを開発する事が、用語の構造化を達成するための前提となると考えた。現時点での類似性判定は、形態学的比較(同一文字の数やATOM構成)を中心としたものであるが、SNOMEDの構造や、品詞の情報を参照することができれば、さらに精度の良い作業を支援することができる。辞書編集ツールの精度は、編集作業そのものの結果を反映することから、回帰的な意味を持っている。
字法や対象領域によってその意味が異なることがしばしばであり、一律に一文字を意味単位として扱うことに困難がある。たとえば「疼痛」の「疼」と「痛」を分離するのは言語学的には正当であっても、医療では意味がない。そこで、この研究では、最小意味単位(ATOM)を医学や医療における常識的な認識の範囲に置いて設定する事とした。たとえば、「疼痛」「痛」「痛み」「いたみ」は同義であると見なして、これらを全てATOMとする。これに対して、複数のATOMが組み合わされた場合に、これを用語(TERM)と呼ぶ。英語ではTERMとATOMの間に単語(WORD)の概念が存在するが、日本語では必要とされない。WORDは形態学的にスペースで区切られる単位であるが、日本語ではこれに相当する区分子が存在しないからである。ただし、英語と日本語の連携を考えるとき、ATOMとTERMの中間にWORDの概念を挿入する必要がある。この場合、日本語のATOMをそのまま英語のWORDに対応させることができよう。なお、全てのATOMはTERMでもありうる。属性の記述:全ての要素(ATOM、TERM)はそれぞれの中で一定の分類が行われる。すなわち、医学用語全般を扱う場合にATOMの分類は、部位、臓器、病変、病因、症候、所見、機器、手技、薬剤、時間要素、量的要素、社会要素、接続表現、固有名詞などであるが、本研究で対象とする症状・症候の場合、この分類は単純化され、部位、臓器、症状、時間要素、量的要素、固有名詞などに限定される。この他の属性として、品詞(形容詞の場合は対応する名詞)、仮名表現、SNOMEDコード、ISO概念表現(ISO/TC215において検討されている医学概念の国際表現)等を持つ。C4 辞書編集ツール:上記の様な構造を持った用語集を編集するためには、専用のデータベース検索システムを準備することが必要である。このシステムには以下の能力が要求される。1)用語を既知のATOMに分解する機能(パーシング)2)用語の表現を正規化する機能 漢字の統一、1バイト文字の排除 、スペース、括弧等記号の整理 3)新規のATOMを登録する機能 4)類似の用語を検索する機能 1)と2)については、研究者等がこの数年間で開発した正規化プログラムが利用できるので、本件研究では、用語の類似性を検索するとともに、新規のATOMの発見を支援し登録する機能を持ったシステムの開発を行った。現在作成されているシステムの処理過程は以下の様である。通常、数万に上る用語を検索しこれらの中から類似性のある用語を見つけだすのは、骨の折れる作業である。人手で行う場合には、数十人が分担して何ヶ月もの期間をようしてやっと可能な作業である。本システムを利用することによって、一用語に対して類似のものを抽出するのに数秒しか必要としない。
分担研究者廣瀬による辞書編修ツールの検証が行われ、いくつかの問題点が指摘された。一つは、SNOMEDの意味構造が十分反映できていないということ、もう一つは、このような意味関係処理は、要素が一意に固定された状態では十分機能を果たせないと言うことである。すなわち、いずれの言語要素もその文脈によって働きが変化することである。前者に対しては、分担研究者が指摘しているように、SNOMED自身の構造にも問題があり、SNOMED-RTの作業進行に期待がかかっている。辞書編集は最終的に人手、しかもそれぞれの領域の専門家を要する作業である。従来は、この作業の第1段階(リスト作成)から人手に頼り、しかもそれぞれの担当者が必ずしも統一的な基準で行うとは限らない環境で作業が行われてきた。これでは、統一性のある辞書編成は大変な難事業となってしまう。そこで、コンピュータを利用した能率的かつ一貫性のある辞書編集を支援するためのツールを開発する事が、用語の構造化を達成するための前提となると考えた。現時点での類似性判定は、形態学的比較(同一文字の数やATOM構成)を中心としたものであるが、SNOMEDの構造や、品詞の情報を参照することができれば、さらに精度の良い作業を支援することができる。辞書編集ツールの精度は、編集作業そのものの結果を反映することから、回帰的な意味を持っている。
結論
本年は、2年計画の初年度にあたり、結論に至る成果は得られていないが、ATOMの抽出とこれを利用した類似語検索システムが半ば完成した。次年度には、この成果を生かして、本格的な辞書作成実験にはいる。
公開日・更新日
公開日
-
更新日
-