特許
J-GLOBAL ID:200903081572384433

共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法

発明者:
出願人/特許権者:
代理人 (1件): 林 靖
公報種別:公開公報
出願番号(国際出願番号):特願2003-315129
公開番号(公開出願番号):特開2005-084859
出願日: 2003年09月08日
公開日(公表日): 2005年03月31日
要約:
【課題】本発明の解決しようとする問題点は、複数の情報間で共通のパターンを容易に発見することである。【解決手段】本発明は、各テキスト情報から部分文字列を抽出する部分文字列取り出し手段11と、抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段12と、同一頻度ごとに部分文字列取り出し手段11が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段13と、頻度と異なる部分文字列の数との積を計算する総数計算手段14と、総数計算手段14によって計算された積と頻度との関係から、ピンポイントで出現するピークに位置の頻度を探すピーク発見手段15と、ピークが存在するとき該ピークの位置で頻度がカウントされた部分文字列を含むテキスト情報を抽出する情報抽出手段16とを備えたことを主要な特徴とする。【選択図】図7
請求項(抜粋):
複数のテキスト情報を対象として、各テキスト情報から最大長さまでのすべての長さの部分文字列を抽出する部分文字列取り出し手段と、前記部分文字列取り出し手段が抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度とする頻度カウント手段と、同一頻度ごとに前記部分文字列取り出し手段が取り出した異なる部分文字列の数をカウントする部分文字列種類数カウント手段と、前記頻度カウント手段がカウントした頻度と前記部分文字列種類数カウント手段がカウントした異なる部分文字列の数との積を計算する総数計算手段と、前記総数計算手段によって計算された積と前記頻度との関係から、ピンポイントでピークが出現する位置の頻度を探すピーク発見手段と、ピークが存在するとき該ピークの位置の頻度がカウントされた部分文字列を含むテキスト情報を抽出する情報抽出手段とを備え、複数のテキスト情報の中からピークの存在で共通のパターンを有す情報を発見することを特徴とする共通パターン発見装置。
IPC (1件):
G06F17/30
FI (4件):
G06F17/30 170A ,  G06F17/30 170F ,  G06F17/30 220Z ,  C12N15/00 A
Fターム (8件):
4B024AA11 ,  4B024CA01 ,  4B024CA11 ,  4B024HA11 ,  5B075ND03 ,  5B075NS10 ,  5B075UU06 ,  5B075UU19

前のページに戻る