Pat
J-GLOBAL ID:200903072823862403
異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
Inventor:
Applicant, Patent owner:
Agent (1):
高野 明近 (外2名)
Gazette classification:公開公報
Application number (International application number):2000265266
Publication number (International publication number):2002073656
Application date: Sep. 01, 2000
Publication date: Mar. 12, 2002
Summary:
【要約】【課題】 表記のゆれを有する異表記のカタカナ列に対し、最も適切な異表記正規化処理および異表記展開処理を施し、無駄な異表記展開や検索漏れの発生を防止できる異表記展開を実現する。【解決手段】 テキストから連続するカタカナ列を抽出し、正規化規則123aに基づいて正規化表記を得る正規化部122と、正規化表記に置換されたテキストから、さらに、連続するカタカナ列を抽出し、異表記展開辞書127aに基づいて正規化表記の異表記に展開する異表記展開部126とを有し、正規化表記への変換規則を登録した正規化規則123aまたは/および展開される異表記を登録した異表記展開辞書127aが分割単位を構成する見出し語毎に任意に設定可能な見出し語コストを有することにより、正規化部122または/および異表記展開部126がコスト最小法形態素解析を適用した正規化処理または/および異表記展開処理を行う。
Claim (excerpt):
入力テキストを受け付ける入力処理ステップと、前記入力テキストから連続するカタカナ列を抽出し、正規化規則に基づいて、抽出した該カタカナ列である原表記に異表記正規化処理を行なわしめ、正規化表記を得る正規化ステップと、前記異表記正規化処理の結果を出力する結果出力ステップとを有する異表記正規化処理方法において、前記正規化規則が、分割単位を構成する形態素となる見出し語と、該見出し語毎に対応する正規化表記と、任意に設定可能な見出し語コストとを有してなることにより、前記正規化ステップが、コスト最小法形態素解析を適用した正規化処理からなることを特徴とする異表記正規化処理方法。
IPC (4):
G06F 17/30 320
, G06F 17/30 170
, G06F 17/21 550
, G06F 17/21 590
FI (4):
G06F 17/30 320 D
, G06F 17/30 170 A
, G06F 17/21 550 K
, G06F 17/21 590 E
F-Term (6):
5B009QA15
, 5B009VA02
, 5B075ND03
, 5B075NK02
, 5B075PP22
, 5B075PQ02
Patent cited by the Patent:
Cited by examiner (4)
-
特開昭62-011932
-
カタカナ語異表記展開方式
Gazette classification:公開公報
Application number:特願平5-098955
Applicant:株式会社リコー
-
文書格納装置
Gazette classification:公開公報
Application number:特願平10-190895
Applicant:日本電気株式会社
Return to Previous Page