Pat
J-GLOBAL ID:200903015790772710

文書分割方法

Inventor:
Applicant, Patent owner:
Agent (1): 岡田 次生
Gazette classification:公開公報
Application number (International application number):2000378015
Publication number (International publication number):2002197083
Application date: Dec. 12, 2000
Publication date: Jul. 12, 2002
Summary:
【要約】【課題】 入力文書において話題が不連続となる点を見出し、複数個のブロックに分割する。【解決手段】 入力文書に出現する用語を検出し、入力文書を適当な単位の文書セグメントに区分けし、文書セグメントに出現する用語の出現頻度を成分とする文書セグメントのベクトルを生成し、文書セグメントベクトルの平方和行列の固有ベクトルおよび固有値を算出し、固有ベクトルから、文書分割決定のための部分空間を構成する基底ベクトルを選択し、文書セグメントベクトルのそれぞれを前記基底ベクトルに射影した値を求め、この射影値に基づいて文書を分割する。文書セグメントベクトルの集合に対し特異値分解を実行し、文書セグメントベクトルの集合を互いに直交する固有ベクトルおよび固有値により展開する。固有ベクトルは用語の組合わせにより表現されるベクトルなのでそれ自体が概念を持つ。固有値は固有ベクトルの表す概念の強さ、もしくはエネルギーと見なすことができる。
Claim (excerpt):
与えられた入力文書を分割する方法であって、入力文書に出現する用語を検出するステップと、入力文書を適当な単位の文書セグメントに区分けするステップと、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントのベクトルを生成するステップと、前記文書セグメントベクトルの平方和行列の固有ベクトルおよび固有値を算出するステップと、前記固有ベクトルから、文書セグメントの話題連続性を算出するための部分空間を構成する基底ベクトルを選択するステップと、前記文書セグメントベクトルのそれぞれを前記基底ベクトルに射影した値に関連した値を成分とするベクトルを求めるステップと、前記射影したベクトルの連続性に基づいて文書の境界点を判定するステップと、を含む文書分割方法。
F-Term (1):
5B091CA01

Return to Previous Page