Pat
J-GLOBAL ID:200903046879265415

関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 真田 有
Gazette classification:公開公報
Application number (International application number):1998005200
Publication number (International publication number):1999203311
Application date: Jan. 13, 1998
Publication date: Jul. 30, 1999
Summary:
【要約】【課題】 関連語抽出装置において、相互情報量を用いることにより、形態素解析また構文解析の処理を施すことなく、利用者にとって分かり易く、かつ、精度を高くして関連語を抽出する事ができるようにする。【解決手段】 テキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出する前後出現単語抽出部21と、頻度を計算しうる頻度計算部22と、出現確立を計算しうる出現確立計算部23と、共起確立を計算する共起確立計算部24と、出現順序に依存する関連度を計算する順序依存型単語関連度計算部25と、順序依存型単語関連度計算部からの関連度情報に基づいて出現順序に依存しない関連度を計算する順序無依存型単語関連度計算部26と、順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出する単語群抽出部27とをそなえるように構成する。
Claim (excerpt):
テキストデータ上において、指定された単語の前に出現する前出現単語または上記指定された単語の後に出現する後出現単語を抽出する前後出現単語抽出部と、上記指定された単語がテキストデータ上で出現する頻度,上記の前出現単語または後出現単語がテキストデータ上で出現する頻度および該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度を計算しうる頻度計算部と、該頻度計算部からの上記指定された単語の頻度情報および上記の前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて、上記指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうる出現確率計算部と、該頻度計算部からの、該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度情報に基づいて、上記の前出現単語および後出現単語のそれぞれが上記指定された単語と共起する共起確率を計算する共起確率計算部と、該出現確率計算部からの各出現確率情報と、該共起確率計算部からの各共起確率情報とに基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する関連度を計算する順序依存型単語関連度計算部と、該順序依存型単語関連度計算部からの関連度情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算する順序無依存型単語関連度計算部と、該順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、上記指定された単語に関連する単語群を上記テキストデータから抽出する単語群抽出部とをそなえて構成されたことを特徴とする、関連語抽出装置。
FI (4):
G06F 15/401 310 A ,  G06F 15/40 370 A ,  G06F 15/403 320 D ,  G06F 15/403 350 C
Patent cited by the Patent:
Cited by examiner (4)
  • 関連語提示装置
    Gazette classification:公開公報   Application number:特願平7-210194   Applicant:富士ゼロックス株式会社
  • 関連語辞書作成装置
    Gazette classification:公開公報   Application number:特願平6-321208   Applicant:富士ゼロックス株式会社
  • 文献検索システム
    Gazette classification:公開公報   Application number:特願平5-084153   Applicant:新日本製鐵株式会社
Show all

Return to Previous Page