特許
J-GLOBAL ID:200903001838003330

意味的まとまりに基づいて文書を分割する装置および方法

発明者:
出願人/特許権者:
代理人 (1件): 岡田 次生
公報種別:公開公報
出願番号(国際出願番号):特願2000-302321
公開番号(公開出願番号):特開2002-117019
出願日: 2000年10月02日
公開日(公表日): 2002年04月19日
要約:
【要約】【課題】文書を意味的なまとまりおよび指定サイズに従って分割する手法を提供する。【解決手段】文書分割装置は、電子化された文書を分析し、意味的まとまりに基づいて文末ごとの分割点尤度を求める手段と、前記分割点尤度に基づいて前記文書を文書セグメントに分割する手段とを備え、分割された前記文書セグメントが指定されたサイズに基づいて定められるしきい値より大きいとき、該文書セグメント内で最もよい分割点尤度を持つ位置で該文書セグメントを分割するようプログラムされている。文書中の各文末位置においてその前後に設定された窓に含まれる文書部分間の類似度を計算し、類似度曲線を求める。得られた類似度曲線から各位置における分割点尤度を計算する。そして分割点尤度のよい位置から順に分割点として文書を分割していき、全ての文書セグメントが指定されたサイズと同程度のサイズになるまで分割していく。
請求項(抜粋):
電子化された文書を分析し、意味的まとまりに基づいて文末ごとの分割点尤度を求める手段と、前記分割点尤度および指定された文書セグメント・サイズに基づいて前記文書を文書セグメントに分割する手段と、を有する文書分割装置。
IPC (4件):
G06F 17/21 550 ,  G06F 17/21 501 ,  G06F 12/00 510 ,  G06F 17/27
FI (5件):
G06F 17/21 550 A ,  G06F 17/21 501 T ,  G06F 12/00 510 A ,  G06F 17/27 E ,  G06F 17/27 M
Fターム (7件):
5B009MB03 ,  5B009MB07 ,  5B082GA20 ,  5B082GC04 ,  5B091AA11 ,  5B091BA03 ,  5B091CA12
引用特許:
審査官引用 (2件)
引用文献:
前のページに戻る