特許
J-GLOBAL ID:201003030514105173
引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体
発明者:
,
,
出願人/特許権者:
代理人 (3件):
吉田 精孝
, 長内 行雄
, 柳 順一郎
公報種別:公開公報
出願番号(国際出願番号):特願2009-027288
公開番号(公開出願番号):特開2010-182238
出願日: 2009年02月09日
公開日(公表日): 2010年08月19日
要約:
【課題】入力文書中に、他の文書内の文字列の改変が無い連続した2つ以上の文である引用が含まれているかどうかを、少ない計算量で正確に検出可能とすること。【解決手段】引用元の候補となる原典文書集合中の文書を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約を生成し、各要約を前記部分文字列の出現順に並べた前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録してなる原典文書DB4を用意し、ダイジェスト生成手段5により、入力文書を前記同様のダイジェストに変換し、引用検出手段6により、前記入力文書のダイジェストをキーとして原典文書DB4を前方最長一致で検索し、この際、連続して一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力する。【選択図】図6
請求項(抜粋):
入力文書中に、他の文書内の文字列の改変が無い連続した2つ以上の文である引用が含まれているかどうかを検出し、含まれていれば当該他の文書の文書IDを出力する装置であって、
他の文書の集合である原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録した原典文書データベースと、
入力文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記入力文書のダイジェストをその文書IDとともに出力するダイジェスト生成手段と、
前記入力文書のダイジェストをキーとして原典文書データベースを前方最長一致で検索し、一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力する引用検出手段とを備えた
ことを特徴とする引用検出装置。
IPC (3件):
G06F 17/30
, G06F 17/24
, G06F 17/21
FI (4件):
G06F17/30 350C
, G06F17/24 554N
, G06F17/30 170A
, G06F17/21 570R
Fターム (8件):
5B075ND03
, 5B075NS01
, 5B075PR06
, 5B075UU06
, 5B109QA04
, 5B109QA05
, 5B109SA12
, 5B109SA14
引用特許: