特許
J-GLOBAL ID:200903015790772710

文書分割方法

発明者:
出願人/特許権者:
代理人 (1件): 岡田 次生
公報種別:公開公報
出願番号(国際出願番号):特願2000-378015
公開番号(公開出願番号):特開2002-197083
出願日: 2000年12月12日
公開日(公表日): 2002年07月12日
要約:
【要約】【課題】 入力文書において話題が不連続となる点を見出し、複数個のブロックに分割する。【解決手段】 入力文書に出現する用語を検出し、入力文書を適当な単位の文書セグメントに区分けし、文書セグメントに出現する用語の出現頻度を成分とする文書セグメントのベクトルを生成し、文書セグメントベクトルの平方和行列の固有ベクトルおよび固有値を算出し、固有ベクトルから、文書分割決定のための部分空間を構成する基底ベクトルを選択し、文書セグメントベクトルのそれぞれを前記基底ベクトルに射影した値を求め、この射影値に基づいて文書を分割する。文書セグメントベクトルの集合に対し特異値分解を実行し、文書セグメントベクトルの集合を互いに直交する固有ベクトルおよび固有値により展開する。固有ベクトルは用語の組合わせにより表現されるベクトルなのでそれ自体が概念を持つ。固有値は固有ベクトルの表す概念の強さ、もしくはエネルギーと見なすことができる。
請求項(抜粋):
与えられた入力文書を分割する方法であって、入力文書に出現する用語を検出するステップと、入力文書を適当な単位の文書セグメントに区分けするステップと、前記文書セグメントに出現する用語の出現頻度に関連した値を成分とする文書セグメントのベクトルを生成するステップと、前記文書セグメントベクトルの平方和行列の固有ベクトルおよび固有値を算出するステップと、前記固有ベクトルから、文書セグメントの話題連続性を算出するための部分空間を構成する基底ベクトルを選択するステップと、前記文書セグメントベクトルのそれぞれを前記基底ベクトルに射影した値に関連した値を成分とするベクトルを求めるステップと、前記射影したベクトルの連続性に基づいて文書の境界点を判定するステップと、を含む文書分割方法。
Fターム (1件):
5B091CA01

前のページに戻る