特許
J-GLOBAL ID:200903046879265415

関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 真田 有
公報種別:公開公報
出願番号(国際出願番号):特願平10-005200
公開番号(公開出願番号):特開平11-203311
出願日: 1998年01月13日
公開日(公表日): 1999年07月30日
要約:
【要約】【課題】 関連語抽出装置において、相互情報量を用いることにより、形態素解析また構文解析の処理を施すことなく、利用者にとって分かり易く、かつ、精度を高くして関連語を抽出する事ができるようにする。【解決手段】 テキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出する前後出現単語抽出部21と、頻度を計算しうる頻度計算部22と、出現確立を計算しうる出現確立計算部23と、共起確立を計算する共起確立計算部24と、出現順序に依存する関連度を計算する順序依存型単語関連度計算部25と、順序依存型単語関連度計算部からの関連度情報に基づいて出現順序に依存しない関連度を計算する順序無依存型単語関連度計算部26と、順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出する単語群抽出部27とをそなえるように構成する。
請求項(抜粋):
テキストデータ上において、指定された単語の前に出現する前出現単語または上記指定された単語の後に出現する後出現単語を抽出する前後出現単語抽出部と、上記指定された単語がテキストデータ上で出現する頻度,上記の前出現単語または後出現単語がテキストデータ上で出現する頻度および該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度を計算しうる頻度計算部と、該頻度計算部からの上記指定された単語の頻度情報および上記の前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて、上記指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうる出現確率計算部と、該頻度計算部からの、該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度情報に基づいて、上記の前出現単語および後出現単語のそれぞれが上記指定された単語と共起する共起確率を計算する共起確率計算部と、該出現確率計算部からの各出現確率情報と、該共起確率計算部からの各共起確率情報とに基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する関連度を計算する順序依存型単語関連度計算部と、該順序依存型単語関連度計算部からの関連度情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算する順序無依存型単語関連度計算部と、該順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、上記指定された単語に関連する単語群を上記テキストデータから抽出する単語群抽出部とをそなえて構成されたことを特徴とする、関連語抽出装置。
FI (4件):
G06F 15/401 310 A ,  G06F 15/40 370 A ,  G06F 15/403 320 D ,  G06F 15/403 350 C
引用特許:
審査官引用 (4件)
  • 関連語提示装置
    公報種別:公開公報   出願番号:特願平7-210194   出願人:富士ゼロックス株式会社
  • 関連語辞書作成装置
    公報種別:公開公報   出願番号:特願平6-321208   出願人:富士ゼロックス株式会社
  • 文献検索システム
    公報種別:公開公報   出願番号:特願平5-084153   出願人:新日本製鐵株式会社
全件表示

前のページに戻る