Pat
J-GLOBAL ID:200903036680701938

日本文単語認定装置

Inventor:
Applicant, Patent owner:
Agent (1): 田中 正治
Gazette classification:公開公報
Application number (International application number):1992331081
Publication number (International publication number):1994161996
Application date: Nov. 17, 1992
Publication date: Jun. 10, 1994
Summary:
【要約】 (修正有)【目的】 漢字かな混じりの日本文に含まれている処理対象文字列から、略語単語を、その単語情報とともに、高い精度で認定する。【構成】 処理対象文字列について、複数の単語候補とそれらの単語情報とを取得し、それら単語候補中に、後方単語候補との間で接続条件を満たし得ないまたは名詞でなる漢字1文字の単語候補が、検索対象単語候補として存在する場合、その検索対象単語候補についての類語派生可能フラグ及び短縮語派生可能フラグと後方単語の意味属性とを取得し、検索対象単語候補と後方単語候補とが結合されている単語候補を生成し且つそれを構成している検索対象単語候補の単語情報を取得し、それらから単語列候補を生成し且つその単語情報を取得し、その単語列候補中の単語数が最小である単語列候補を略語単語として認定し且つその単語情報を認定する。
Claim (excerpt):
漢字かな混じりの日本文における処理対象文字列としての文字列に含まれる、類語または短縮語でなる略語単語を、その品詞、読みなどの単語情報とともに認定し得るようになされた日本文単語認定装置において、多数の単語について、単語ごとに、その品詞、読みなどの単語情報を記述している日本語単語辞書と、多数の単語について、一の単語とその後方に結合する他の単語との間の文法的な接続条件を記述している文法辞書と、多数の漢字について、キ-見出しとなる漢字1文字ごとに、その漢字1文字から類語及び短縮語がそれぞれ派生する可能性があるか否かをそれぞれ表している類語派生可能フラグ及び短縮語派生可能フラグを記述しているとともに、上記キ-見出しとなる漢字1文字の後方に結合して上記キ-見出しとなる漢字1文字とで類語及び短縮語にそれぞれ派生し得る後方言語の意味属性を記述している派生要素情報辞書と、多数の漢字について、漢字1文字ごとに、その読みを記述している漢字1文字音読み辞書と、上記処理対象文字列としての文字列について、その文字列を構成している単語でなる複数の単語候補と、それら単語候補のそれぞれについての品詞、読みなどの単語情報とを、上記日本語単語辞書を用いて、取得する単語候補取得手段と、上記単語候補取得手段によって取得された上記単語候補及び上記単語情報を格納する単語候補格納テ-ブルと、上記単語候補格納テ-ブルに格納された上記単語候補中に、上記処理対象文字列としての文字列上でみて後方の単語候補との間で文法的な接続条件を満たし得ない漢字1文字の単語候補が、検索対象の単語候補として存在することが、上記文法辞書を用いて判知された場合、または名詞である漢字1文字の単語候補が、検索対象の単語候補として存在することが、上記単語候補格納テ-ブルに格納されている上記単語情報を用いて判知された場合、その検索対象の単語候補について、その検索対象の単語候補が類語及び短縮語をそれぞれ派生する可能性があるか否かをそれぞれ表している類語派生可能フラグ及び短縮語派生可能フラグを、上記派生要素情報辞書を用いて、取得するとともに、上記検索対象の単語候補の後方に結合して上記検索対象の単語候補とで類語及び短縮語をそれぞれ派生し得る後方単語の意味属性を、上記派生要素情報辞書を用いて取得する第1の手段と、上記第1の手段で取得した上記類語派生可能フラグがオンであり、且つ上記検索対象の単語候補中に、上記処理対象文字列としての文字列上でみて後方に上記第1の手段で取得した意味属性に関連する意味属性を有する単語候補が後方単語候補として存在する場合、上記類語派生可能フラグがオンである上記検索対象の単語候補と上記後方単語候補とが結合されている単語候補を生成し、上記第1の手段で取得した短縮語派生可能フラグがオンであり、且つ上記検索対象の単語候補中に、上記処理対象文字列としての文字列上でみて後方に上記第1の手段で取得した意味属性との間で共通の項目を有する単語候補が後方単語候補として存在する場合、上記類語派生可能フラグがオンである上記検索対象の単語候補と上記後方単語候補とが結合されている単語候補を生成する第2の手段と、上記第2の手段によって生成された単語候補について、それを上記単語候補格納テ-ブルに格納させ、且つ上記第2の手段によって生成した単語候補を構成している上記検索対象の単語候補ごとに、その読みを、上記漢字1文字音読み辞書を用いて取得して、上記単語候補格納テ-ブルに格納させるとともに、上記第2の手段によって生成した単語候補を構成している上記後方単語候補ごとに、その品詞、読みなどの単語情報を、上記単語候補格納テ-ブルに格納されている上記単語情報を用いて取得して、上記単語候補格納テ-ブルに格納させる第3の手段と、上記単語候補格納テ-ブルに格納された上記単語候補中から、上記文法辞書を用い、それに記述している接続条件を満足している単語列となり得る単語候補を取得して、単語列候補を生成するとともに、その単語列候補についての品詞、読みなどの単語情報を、上記単語候補格納テ-ブルに格納されている上記単語情報を用いて取得する単語列候補生成手段と、上記単語列候補生成手段によって生成された上記単語列候補中の、単語数が最小である単語列候補を、略語単語として認定し、且つその略語単語についての品詞、読みなどの単語情報を認定する単語認定手段とを具備することを特徴とする日本文単語認定装置。
IPC (6):
G06F 15/20 514 ,  G06F 15/20 ,  G06F 15/20 516 ,  G06F 15/20 520 ,  G06F 15/20 568 ,  G06F 15/38

Return to Previous Page