抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
文書からの知識抽出を行うために,詳細にクラス分けされた固有表現の辞書が必要とされている。本稿では,このような辞書の自動構築を目指し,未知語が与えられたときに,その表記が対象クラスに属するかどうかを自動判定する手法を提案する。まず,教師データとして,クラスとそのクラスに属する表記集合だけが与えられたときに,タグなしコーパスから文脈情報を取得して集約し,学習および推定を行う従来手法について検証する。この結果から,従来手法では,学習時に,多義語が教師データに含まれることによる精度の低下は小さいが,推定対象が多義語の場合に,対象とする語義以外の文脈から得られた特徴量が悪影響を及ぼし,精度の低下が大きいことを示す。次に,従来手法のように文脈情報を集約してから推定を行うのではなく,推定対象の表記が出現する個々の文脈ごとに推定を行い,推定結果であるスコアを集約することで,対象とするクラス以外の語義で,その表記が用いられている文脈の影響を軽減する手法を提案する。本手法では,使用頻度の少ない語義に対するクラス判定の精度を向上させることができるため,タグなしコーパスを増やすことで多義語が持つ複数の語義を網羅的に獲得できるようになることを示す。(著者抄録)