多機能高精度自動点訳エンジンの研究

文献情報

文献番号
200828014A
報告書区分
総括
研究課題名
多機能高精度自動点訳エンジンの研究
課題番号
H20-感覚器・一般-001
研究年度
平成20(2008)年度
研究代表者(所属機関)
石川 准(静岡県立大学 国際関係学部)
研究分担者(所属機関)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 感覚器障害研究
研究開始年度
平成20(2008)年度
研究終了予定年度
平成22(2010)年度
研究費
8,500,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
 今日、自動点訳ソフトウェアは学校、自治体、企業、点字出版所、点字図書館、ボランティアグループ、視覚障害者個人等により幅広く利用されている。この自動点訳ソフトウェアの核となるのが自動点訳エンジンであるが、その利用範囲は自動点訳にとどまらず、スクリーンリーダーの点字表示、点字携帯端末、視覚障害者用ソフトウェアなどでも多く利用されている。
 本研究は、近年の以下のような新しいニーズの高まりに対応する多機能高精度点訳エンジンの開発を目的とする。
1.各種ドキュメントが有する構造情報、レイアウト情報、テキスト情報等を生かした高精度自動点訳の実現
2.医学、法学等専門分野の文献の自動点訳の改善
3.固有名詞と一般名詞の判別及び人名の変換精度の向上
4.誤りリスク、候補一覧、ふりがな、文節情報等の提示機能
5.Unicode文字情報の自動点訳
研究方法
 上記目的を達成するために研究初年度である本年度は以下の研究を進めた。
・はじめに構造化点訳XML(Structured Braille Format)の規格策定を行った。
次いで、Office Open XMLから取得できる構造情報、レイアウト情報、テキスト情報のうち、点訳において意味を持つ情報を抽出した。その上で、Open XMLから構造化点訳XMLへの変換を実現するコンバータを開発した。
・これまで開発してきた自動点訳エンジンの形態素解析アルゴリズムを分析し、弱点を克服するための改善を行い、形態素解析の改善により点訳精度が向上することを確認した。
・医学・理療辞書、町名大字名、丁目・字名等の住所辞書、社会科、理科等の学校教科書用辞書を整備し、それにより点訳精度が向上することを確認した。
結果と考察
Open XML等の文書から構造情報、各種レイアウト情報を抽出することで、自動点訳の精度を改善できることが確認できた。
 形態素解析の改善(助詞、助動詞の判別精度改善)により、点訳精度は一定程度向上したが、一般名詞と固有名詞の判別等、なお改善を要する。
 専門辞書は当該分野の文書の点訳では効果を発揮するが、他分野の文書に適用すると、むしろ変換精度の低下を招くので、分野種別を自動判別するか、判別精度が悪い場合には、ユーザが明示的に指定できるようにする必要がある。

結論
 初年度の研究は多機能高精度自動点訳エンジン開発の核となる構造情報・レイアウト情報、テキスト情報の効果的活用、高度な言語学的解析、専門分野辞書の構築において、それぞれ成果があった。

公開日・更新日

公開日
2009-04-10
更新日
-