特許
J-GLOBAL ID:201103089037582519
語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
発明者:
,
出願人/特許権者:
代理人 (1件):
伊東 忠彦
公報種別:特許公報
出願番号(国際出願番号):特願2005-194298
公開番号(公開出願番号):特開2007-011892
特許番号:特許第4148247号
出願日: 2005年07月01日
公開日(公表日): 2007年01月18日
請求項(抜粋):
【請求項1】特定の属性のキーワード例を元にHTMLやXMLを含む電子テキストを解析し、語彙を獲得する装置における語彙獲得方法であって、
テキスト検索手段が、外部から入力された特定の属性のキーワード例に基づいて、前記HTMLやXMLを含む電子テキストを蓄積するテキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索ステップと、
キーワード位置特定手段が、検索された前記テキストから、前記キーワード例の出現位置を特定するキーワード位置特定ステップと、
キーワード出現パターン抽出手段が、前記テキスト検索ステップにおいて取得されたテキストにおいて、前記キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出ステップと、
キーワード候補抽出手段が、前記キーワード例の各キーワードの出現位置及び前記キーワード例に共通の出現パターンに基づいて前記テキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出ステップと、
キーワード抽出手段が、前記キーワードの候補の各キーワードについて、前記テキスト検索ステップにおいて取得されたテキストの数NA、該テキスト検索ステップにおいて取得されたテキストのうち該キーワード候補を含むテキストの数NAW、前記テキスト蓄積手段に蓄積されているテキストの数NWから各キーワードの評価値(NAW/NA)×log(NAW/NW)を求め、該評価値が所定の閾値よりも高いキーワードを前記キーワードの候補から抽出するキーワード抽出ステップと、
を行うことを特徴とする語彙獲得方法。
IPC (1件):
FI (2件):
G06F 17/30 210 A
, G06F 17/30 170 A
引用文献:
前のページに戻る