文献情報
文献番号
200930005A
報告書区分
総括
研究課題名
多機能高精度自動点訳エンジンの開発
課題番号
H20-感覚・一般-001
研究年度
平成21(2009)年度
研究代表者(所属機関)
石川 准(静岡県立大学 国際関係学部)
研究分担者(所属機関)
- 宮本 修(筑波技術大学 障害者高等教育研究支援センター)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 感覚器障害研究
研究開始年度
平成20(2008)年度
研究終了予定年度
平成22(2010)年度
研究費
8,500,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
本研究は、各種ドキュメントが有する構造情報、レイアウト情報、テキスト情報等を生かした高精度自動点訳、医学等専門文献の高精度自動点訳、人名等の高精度自動点訳、点訳分かち書き誤りの発見などの機能を有する自動点訳エンジンの開発を目的とする。
研究方法
1.Open XML等の構造情報を自動点訳に利用するための構造化点訳XMLの策定とその有効性評価の研究
構造化点訳XMLを策定し、Open XMLやテキストDAISYから構造化点訳XMLへの変換を行うモジュールを開発する。
構造情報、レイアウト情報を持つ文書の自動点訳の精度を評価する。
2.専門分野文献の点訳精度向上、固有名詞と一般名詞判別性能の向上のための新しい形態素解析手法の研究
読みの誤り、分かち書きの誤り等の点訳誤りを項目別に自動的に算出できるツールを開発し、市販、公開されている点訳ソフトウェアの性能を客観的に評価する。
既存の自動点訳エンジンの形態素解析アルゴリズムの性能を評価する。
大量コーパスデータを用いる今日的形態素解析手法を評価、分析し、それを応用して、確率論的方法論に基づく新しい自動点訳エンジンを開発する。
専門分野ごとにコーパスを整備し、ドキュメント種別判別の精度を高め、各専門分野特有の読み方に対応し点訳精度を向上させる。
3.点訳分かち書き誤りの発見の研究
全国視覚障害者情報提供施設協会が運営する視覚障害者情報総合ネットワークサピエの点字図書データを用いて点字コーパスを作成する。
点字コーパスを用いた実用レベルの分かち書き誤り検出手法を開発する。
構造化点訳XMLを策定し、Open XMLやテキストDAISYから構造化点訳XMLへの変換を行うモジュールを開発する。
構造情報、レイアウト情報を持つ文書の自動点訳の精度を評価する。
2.専門分野文献の点訳精度向上、固有名詞と一般名詞判別性能の向上のための新しい形態素解析手法の研究
読みの誤り、分かち書きの誤り等の点訳誤りを項目別に自動的に算出できるツールを開発し、市販、公開されている点訳ソフトウェアの性能を客観的に評価する。
既存の自動点訳エンジンの形態素解析アルゴリズムの性能を評価する。
大量コーパスデータを用いる今日的形態素解析手法を評価、分析し、それを応用して、確率論的方法論に基づく新しい自動点訳エンジンを開発する。
専門分野ごとにコーパスを整備し、ドキュメント種別判別の精度を高め、各専門分野特有の読み方に対応し点訳精度を向上させる。
3.点訳分かち書き誤りの発見の研究
全国視覚障害者情報提供施設協会が運営する視覚障害者情報総合ネットワークサピエの点字図書データを用いて点字コーパスを作成する。
点字コーパスを用いた実用レベルの分かち書き誤り検出手法を開発する。
結果と考察
Open XML等の文書から構造情報、各種レイアウト情報を抽出することで、見出し付けやレイアウトなどにおいて、自動点訳の可読性が向上した。
公開されている点訳ソフトウェアの自動点訳性能の客観評価を行った。また、既存の自動点訳エンジンの形態素解析アルゴリズムを抽出、解析し、問題点を明確にした。
点訳規則のうち「分かち書き規則」には大量コーパスを用いる今日的形態素解析手法が有効であり、「切れ続き規則」には点訳コーパスを用いる誤り補正が有効であることを実験により確認した。
公開されている点訳ソフトウェアの自動点訳性能の客観評価を行った。また、既存の自動点訳エンジンの形態素解析アルゴリズムを抽出、解析し、問題点を明確にした。
点訳規則のうち「分かち書き規則」には大量コーパスを用いる今日的形態素解析手法が有効であり、「切れ続き規則」には点訳コーパスを用いる誤り補正が有効であることを実験により確認した。
結論
形態素解析、検索、自動翻訳等のために整備されている日本語コーパスおよびサピエの点字図書データを自動点訳に利用することで、自動点訳エンジンの開発と改良に要するコストを低減できる。
公開日・更新日
公開日
2010-09-22
更新日
-