特許
J-GLOBAL ID:200903004571692130

中国語文書自動校正方法及び装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-036725
公開番号(公開出願番号):特開2001-229162
出願日: 2000年02月15日
公開日(公表日): 2001年08月24日
要約:
【要約】【課題】 中国語の文書に対して効率的なミス検出や訂正等が可能な中国語文書自動校正装置等を提供する。【解決手段】 文字対読み変換部は、原始文書を、読み記号列に変換する。候補語生成部は、読み記号列の音節を切り出し、考えられる候補語及びその関連情報を検出し、使用頻度を用いて候補字を削除し、連続した単漢字候補の読み記号列及び字形組合せ記号列に対して所定のマスク手段を使って考えられる候補語及びその関連情報を検出する。候補語決定部は、得られた候補字の組み合わせに対してその対応読み記号列を検出し、全ての考えられる候補語及びその関連情報を検出する。最適候補文字列決定部は、原始文書文字列に対応する各候補語の開始位置、終了位置に基づいて有向ネットを作り、所定の重みの累計最大値を用いて最適な経路を取り出す。マッチング部は、最適経路文字列と原始文書文字列とを比べ相異字を検出しマークする。
請求項(抜粋):
入力部と、記憶部と、出力部とを備えた装置上での中国語自動文書校正方法であって、中国語破音字とそれに対応する読み記号とを、前記読み記号に対応する全ての候補字及びその読み記号とともに格納した破音字典部と、中国語の文字とそれに対応するデフォルトの読み記号とその考えられる読み記号を格納した字音辞書部と、中国語の読み記号、それに対応する全ての同音異義字、語、そのすべての同音異義字、語の使用頻度重み、品詞属性記号および意味コードを格納した音字辞書部と、中国語文字とそれに対応する字形組合せ記号列とを格納した字形辞書部と、学習された品詞接続情報を格納した品詞情報部と、学習された相隣接する後続語の意味コードと先行語の意味コードとの組み合わせを格納した意味情報部とを作成する作成ステップと、前記入力部から文字列を含む原始文書を入力するステップと、前記破音字典部及び前記字音辞書部を参照して前記原始文書の前記文字列を、読み記号列に変換する文字対読み変換ステップと、前記読み記号列に対して音節を切り出し、切り出された前記音節を検索キーとして前記音字辞書部を参照し、全ての考えられる候補語及びその関連情報を検出し、削除手段により使用頻度がしきい値より低い候補字を削除して、連続した単漢字候補列に対応する読み記号列とその字形組合せ記号列とに対して類似音マスク手段と、読み音マスク手段と、字形マスク手段とを使って、前記字音辞書部と、前記字形辞書部と、前記音字辞書部とを参照して、前記考えられる候補語とその関連情報を検出する候補語生成ステップと、類似音マスク手段と字形マスク手段とにより得られた全ての候補字の組み合わせに対して前記字音辞書部を参照してその対応する読み記号列を検出し、検出された前記読み記号列を検索キーとして前記音字辞書部を参照し、全ての考えられる候補語とその関連情報とを検出する候補語決定ステップと、前記原始文書の前記文字列に対応する各候補語の開始位置、終了位置をインデックスとして各候補語を連接して有向ネットを形成し、計算手段により、品詞情報部と意味情報部とを参照して、各候補語の品詞重みと意味類似度重みとを計算し、前記品詞重みと前記意味類似度重みと前記使用頻度重みと語長重みと原始文書類似度重みとの累計最大値を評価関数として、動的計画法により、最適な経路を取り出す最適候補文字列決定ステップと、取り出された前記最適な経路における文字列と前記原始文書の前記文字列とをマッチングして相異字を検出し、マークするマッチングステップとを含む中国語文書自動校正方法。
IPC (2件):
G06F 17/24 ,  G06F 17/21
FI (2件):
G06F 15/20 554 H ,  G06F 15/20 592 J
Fターム (2件):
5B009QB16 ,  5B009VB11

前のページに戻る