引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体

発明者： , ,
出願人/特許権者：
代理人 (3件)：吉田精孝 , 長内行雄 , 柳順一郎
公報種別：公開公報
出願番号（国際出願番号）：特願2009-027288
公開番号（公開出願番号）：特開2010-182238
出願日： 2009年02月09日
公開日（公表日）： 2010年08月19日
要約：

【課題】入力文書中に、他の文書内の文字列の改変が無い連続した2つ以上の文である引用が含まれているかどうかを、少ない計算量で正確に検出可能とすること。【解決手段】引用元の候補となる原典文書集合中の文書を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約を生成し、各要約を前記部分文字列の出現順に並べた前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録してなる原典文書DB4を用意し、ダイジェスト生成手段5により、入力文書を前記同様のダイジェストに変換し、引用検出手段6により、前記入力文書のダイジェストをキーとして原典文書DB4を前方最長一致で検索し、この際、連続して一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力する。【選択図】図6

請求項（抜粋）：

入力文書中に、他の文書内の文字列の改変が無い連続した2つ以上の文である引用が含まれているかどうかを検出し、含まれていれば当該他の文書の文書IDを出力する装置であって、他の文書の集合である原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録した原典文書データベースと、入力文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記入力文書のダイジェストをその文書IDとともに出力するダイジェスト生成手段と、前記入力文書のダイジェストをキーとして原典文書データベースを前方最長一致で検索し、一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力する引用検出手段とを備えたことを特徴とする引用検出装置。

IPC (3件)：

G06F 17/30 , G06F 17/24 , G06F 17/21

FI (4件)：

G06F17/30 350C , G06F17/24 554N , G06F17/30 170A , G06F17/21 570R

Fターム (8件)：

5B075ND03 , 5B075NS01 , 5B075PR06 , 5B075UU06 , 5B109QA04 , 5B109QA05 , 5B109SA12 , 5B109SA14

引用特許：

審査官引用 (4件)

キーワード自動抽出方法および装置
公報種別：公開公報出願番号：特願平7-126524 出願人：日本電信電話株式会社
文書データの一致検証方式
公報種別：公開公報出願番号：特願平6-014610 出願人：株式会社日立製作所
パターンマッチング装置および方法ならびにプログラム
公報種別：公開公報出願番号：特願2004-051654 出願人：日本電信電話株式会社

全件表示

引用文献：

審査官引用 (2件)

前のページに戻る