特許
J-GLOBAL ID:201203051451623200

局所対応抽出装置及び局所対応抽出方法

発明者:
出願人/特許権者:
代理人 (3件): 後藤 政喜 ,  藤井 正弘 ,  飯田 雅昭
公報種別:公開公報
出願番号(国際出願番号):特願2010-202745
公開番号(公開出願番号):特開2012-059100
出願日: 2010年09月10日
公開日(公表日): 2012年03月22日
要約:
【課題】本発明は、事前にインデックス化されてない任意の文字列の間で代表的な局所対応を網羅的に抽出する局所対応抽出装置を提供することを目的とする。【解決手段】任意の二つの文書間で類似する文字列である局所対応を抽出する局所対応抽出部を備える局所対応抽出装置において、遷移元セルに対応する第二行列のセルがいずれかの局所対応に属することを示し、かつ、第一行列生成部によって算出された最大のスコアが所定値よりも大きい場合、算出されたスコアが同じ局所対応に属するセルの最大のスコアよりも大きい場合、算出対象のセルに対応する二つの文字が局所対応の終点となることを記憶することを特徴とする。【選択図】図1
請求項(抜粋):
任意の二つの文書間で類似する文字列である局所対応を抽出する局所対応抽出部を備える局所対応抽出装置において、 前記局所対応抽出部は、 前記二つの文書のうち一方の文書を構成する文字列を行とし、他方の文書を構成する文字列を列とし、前記行の文字列を構成する文字及び前記列の文字列を構成する文字に対応するセルに、当該セルに対応する二つの文字の類似度を示すスコアを登録して、第一行列を生成する第一行列生成部と、 前記第一行列のセルに対応するセルによって構成される第二行列のセルのうち前記第一行列生成部によってスコアが算出されたセルに対応するセルに、当該セルに対応する二つの文字が属する局所対応の識別子を登録して、前記第二行列を生成する第二行列生成部と、を有し、 前記第一行列のセルに登録されるスコアは、当該セルに対応する二つの文字の類似度が大きいほど大きい値を示し、 前記第一行列生成部は、 前記スコアの算出対象のセルに隣接するセルのうちすでにスコアが算出されたセルから当該算出対象のセルまでのパスに予め設定された値に基づいて前記算出対象のセルのスコアを算出し、 前記算出されたスコアのうち最大のスコアを前記算出対象のセルのスコアとして登録し、 前記最大のスコアが算出されたパスの起点となる前記セルを遷移元セルとして記憶し、 前記第二行列生成部は、 前記遷移元セルに対応する前記第二行列のセルがどの局所対応にも属しないことを示し、かつ、前記第一行列生成部によって算出された最大のスコアが所定値である場合、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録し、前記新たな局所対応の始点として前記算出対象のセルを記憶し、 前記遷移元セルに対応する前記第二行列のセルがいずれかの局所対応に属することを示し、かつ、前記第一行列生成部によって算出された最大のスコアが前記所定値よりも大きい場合、前記算出対象のセルに対応する前記第二行列のセルに、前記遷移元セルに対応する前記第二行列のセルに登録された局所対応の識別子を登録し、さらに、前記算出されたスコアが同じ局所対応に属するセルの最大のスコアよりも大きい場合、前記局所対応の終点として前記算出対象のセルを記憶することを特徴とする局所対応抽出装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 350C ,  G06F17/30 170A ,  G06F17/30 417
Fターム (8件):
5B075KK33 ,  5B075ND03 ,  5B075ND32 ,  5B075NK52 ,  5B075PQ74 ,  5B075PR06 ,  5B075QM08 ,  5B075UU06
引用特許:
出願人引用 (2件)
引用文献:
出願人引用 (2件)

前のページに戻る