Pat
J-GLOBAL ID:200903054479710153

自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品

Inventor:
Applicant, Patent owner:
Agent (1): 中島 淳 (外1名)
Gazette classification:公開公報
Application number (International application number):1996180104
Publication number (International publication number):1997016630
Application date: Jun. 20, 1996
Publication date: Jan. 17, 1997
Summary:
【要約】【課題】 自動的にドキュメントの抽出物を作成する方法を提供し、該方法によりエキスパートが抽出するかもしれないセンテンスの集合と同じセンテンスの集合を抽出する。【解決手段】 本発明の方法は反復的アプローチに基づく。先ず、コンピュータシステムはドキュメントのセンテンスを選択センテンスとして示す。次に、コンピュータシステムは特徴集合の各特徴の選択センテンスに対して値を決定する。次に、コンピュータシステムは選択センテンスに対する特徴の値及びその値と関係する確率に基づいて選択センテンスに対してスコアを増分する。次に、ドキュメントのセンテンスの全てをスコアリング後、コンピュータシステムは抽出されるハイスコアセンテンスの部分集合を選択する。
Claim (excerpt):
機械可読形態でプロセッサに呈された、プロセッサにより実施される方法であって、ドキュメントが複数のセンテンスを含み、プロセッサはセンテンスを抽出するための機械可読命令を格納するメモリに結合され、メモリが特徴集合の各特徴の各値に対して確率を格納し、ドキュメントコーパスとこれに関係する手作業により作成される抄録のコーパスの統計的分析により確率が生成され、(a)ドキュメントのセンテンスを選択センテンスとして示すステップを有し、(b)特徴集合の各特徴の選択センテンスに対して値を決定するステップを有し、(c)特徴毎に、選択センテンスに対する特徴の値及び特徴の値と関係する確率に基づいて選択センテンスに対してスコアを増すステップを有し、(d)ドキュメントの全センテンスが選択センテンスとして示されなかった場合、ステップ(a)乃至(c)を繰り返すステップを有し、(e)抽出されるセンテンスの部分集合をセンテンススコアに基づいて選択するステップを有する、自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法。
IPC (2):
G06F 17/30 ,  G06F 17/27
FI (2):
G06F 15/401 320 A ,  G06F 15/20 550 F

Return to Previous Page