特許
J-GLOBAL ID:200903054479710153

自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品

発明者:
出願人/特許権者:
代理人 (1件): 中島 淳 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-180104
公開番号(公開出願番号):特開平9-016630
出願日: 1996年06月20日
公開日(公表日): 1997年01月17日
要約:
【要約】【課題】 自動的にドキュメントの抽出物を作成する方法を提供し、該方法によりエキスパートが抽出するかもしれないセンテンスの集合と同じセンテンスの集合を抽出する。【解決手段】 本発明の方法は反復的アプローチに基づく。先ず、コンピュータシステムはドキュメントのセンテンスを選択センテンスとして示す。次に、コンピュータシステムは特徴集合の各特徴の選択センテンスに対して値を決定する。次に、コンピュータシステムは選択センテンスに対する特徴の値及びその値と関係する確率に基づいて選択センテンスに対してスコアを増分する。次に、ドキュメントのセンテンスの全てをスコアリング後、コンピュータシステムは抽出されるハイスコアセンテンスの部分集合を選択する。
請求項(抜粋):
機械可読形態でプロセッサに呈された、プロセッサにより実施される方法であって、ドキュメントが複数のセンテンスを含み、プロセッサはセンテンスを抽出するための機械可読命令を格納するメモリに結合され、メモリが特徴集合の各特徴の各値に対して確率を格納し、ドキュメントコーパスとこれに関係する手作業により作成される抄録のコーパスの統計的分析により確率が生成され、(a)ドキュメントのセンテンスを選択センテンスとして示すステップを有し、(b)特徴集合の各特徴の選択センテンスに対して値を決定するステップを有し、(c)特徴毎に、選択センテンスに対する特徴の値及び特徴の値と関係する確率に基づいて選択センテンスに対してスコアを増すステップを有し、(d)ドキュメントの全センテンスが選択センテンスとして示されなかった場合、ステップ(a)乃至(c)を繰り返すステップを有し、(e)抽出されるセンテンスの部分集合をセンテンススコアに基づいて選択するステップを有する、自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法。
IPC (2件):
G06F 17/30 ,  G06F 17/27
FI (2件):
G06F 15/401 320 A ,  G06F 15/20 550 F

前のページに戻る