Pat
J-GLOBAL ID:200903001838003330

意味的まとまりに基づいて文書を分割する装置および方法

Inventor:
Applicant, Patent owner:
Agent (1): 岡田 次生
Gazette classification:公開公報
Application number (International application number):2000302321
Publication number (International publication number):2002117019
Application date: Oct. 02, 2000
Publication date: Apr. 19, 2002
Summary:
【要約】【課題】文書を意味的なまとまりおよび指定サイズに従って分割する手法を提供する。【解決手段】文書分割装置は、電子化された文書を分析し、意味的まとまりに基づいて文末ごとの分割点尤度を求める手段と、前記分割点尤度に基づいて前記文書を文書セグメントに分割する手段とを備え、分割された前記文書セグメントが指定されたサイズに基づいて定められるしきい値より大きいとき、該文書セグメント内で最もよい分割点尤度を持つ位置で該文書セグメントを分割するようプログラムされている。文書中の各文末位置においてその前後に設定された窓に含まれる文書部分間の類似度を計算し、類似度曲線を求める。得られた類似度曲線から各位置における分割点尤度を計算する。そして分割点尤度のよい位置から順に分割点として文書を分割していき、全ての文書セグメントが指定されたサイズと同程度のサイズになるまで分割していく。
Claim (excerpt):
電子化された文書を分析し、意味的まとまりに基づいて文末ごとの分割点尤度を求める手段と、前記分割点尤度および指定された文書セグメント・サイズに基づいて前記文書を文書セグメントに分割する手段と、を有する文書分割装置。
IPC (4):
G06F 17/21 550 ,  G06F 17/21 501 ,  G06F 12/00 510 ,  G06F 17/27
FI (5):
G06F 17/21 550 A ,  G06F 17/21 501 T ,  G06F 12/00 510 A ,  G06F 17/27 E ,  G06F 17/27 M
F-Term (7):
5B009MB03 ,  5B009MB07 ,  5B082GA20 ,  5B082GC04 ,  5B091AA11 ,  5B091BA03 ,  5B091CA12
Patent cited by the Patent:
Cited by examiner (2)
Article cited by the Patent:
Return to Previous Page