Pat
J-GLOBAL ID:200903043855708740

読み情報決定方法及び装置及びプログラム

Inventor:
Applicant, Patent owner:
Agent (1): 伊東 忠彦
Gazette classification:公開公報
Application number (International application number):2003046042
Publication number (International publication number):2004206659
Application date: Feb. 24, 2003
Publication date: Jul. 22, 2004
Summary:
【課題】アルファベットや数字からなる単語に対する日本語読みを決定する際に、アルファベット読み、英語読み等が一概に決定されない文字列に対する読みを自動的に付与する。【解決手段】本発明は、形態素解析された単語情報から対象単語を抽出し、対象単語に関する属性を抽出し、読みクラス判定モデルに適用して読みクラスを判定し、判定された読みクラスに応じて読みを付与する。【選択図】 図1
Claim (excerpt):
処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、 前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得し、 前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出し、 各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、 抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行い、 読みクラスの第1候補のスコアが所定の信頼度閾値未満あるいは、抽出された前記対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行い、前記対象単語情報利用型判定と該文脈利用型判定の第1候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第1の候補のスコアと、該文脈利用型判定で判定された第1候補の読みのクラスのスコアとスコアの重み(但し、スコアの重みは定数)を乗算した値のうち、値の大きい読みクラスを最終結果とし、 前記対象単語情報利用型判定の前記読みクラスの第1候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定と前記文脈利用型判定の第1候補が同一、あるいは、対象単語が数字列の場合には、該第1候補を読みクラス判定の最終結果とし、 前記対象単語が数字列の場合には、文脈利用型判定を行い、その第1候補を読みクラス判定の最終結果とし、 判定された前記読みクラスに応じて読み付与を行い、 前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力することを特徴とする読み情報決定方法。
IPC (3):
G06F17/27 ,  G10L13/06 ,  G10L13/08
FI (3):
G06F17/27 Z ,  G10L5/04 F ,  G10L3/00 H
F-Term (7):
5B091AA11 ,  5B091AA15 ,  5B091AB04 ,  5B091CA02 ,  5B091CB32 ,  5B091EA25 ,  5D045AA09
Patent cited by the Patent:
Cited by examiner (5)
Show all

Return to Previous Page