Pat
J-GLOBAL ID:200903078141350344
文書の共通性評価方法
Inventor:
Applicant, Patent owner:
Agent (1):
大西 昭広
Gazette classification:公開公報
Application number (International application number):2002326157
Publication number (International publication number):2004164036
Application date: Nov. 08, 2002
Publication date: Jun. 10, 2004
Summary:
【課題】自然言語処理において3個以上の文書がどの程度話題を共通にしているかを表す尺度はこれまで知られていなかった。また、必ずしも話題が同じでない文書集合からの共通の話題を述べた文書の抽出、各文書、各文への共通話題への近さに応じたスコア-の付与は、従来のクラスタリング技術では完全ではなかった。【解決手段】各文を各成分が対応する用語の有無を表す2値ベクトルで表したうえで、文書間の共通ベクトルの概念を導入する。共通ベクトルは、各文書から1つづつ取り出した文ベクトル群において全てのベクトルで1となる成分のみが1となり他はゼロとなるようなベクトルである。各共通ベクトルにおける値が非ゼロの成分数の全共通ベクトルに対する和、もしくは2乗和を用いることにより、文書集合の共通度を求める。また、各文を全共通ベクトルに射影し、射影値の和等により、各文が共通話題にどの程度近いかを求める。【選択図】図3
Claim (excerpt):
以下の(a)から(d)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る文書集合に対して、前記文書集合の各文書が話題を共通にする程度を示す文書集合共通度を求める方法、
(a)前記文書セグメント毎に、前記文書セグメントに出現する用語に対応する成分の値を1、他の値は0とする文書セグメントベクトルを生成するステップと、
(b)前記文書集合の各文書に対して文書セグメントベクトルより共起行列を生成するステップと、
(c)各文書の各共起行列の同一行同一列の成分の値の積により前記行前記列の成分の値を与えることによって共通共起行列を生成するステップと、
(d)前記共通共起行列の全成分、又は対角成分の和をもとに文書集合共通度を求めるステップ。
IPC (1):
FI (4):
G06F17/30 220Z
, G06F17/30 170A
, G06F17/30 210D
, G06F17/30 330C
F-Term (4):
5B075ND03
, 5B075NR12
, 5B075PR06
, 5B075QM08
Patent cited by the Patent:
Cited by examiner (2)
-
文書のベクトル解析を行うコンピュータおよび方法
Gazette classification:公開公報
Application number:特願2000-353475
Applicant:ヒューレット・パッカード・カンパニー
-
文書分類装置
Gazette classification:公開公報
Application number:特願平5-259809
Applicant:シャープ株式会社
Article cited by the Patent:
Return to Previous Page