抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
分かち書きの習慣がない言語テキストの計算処理に必要な形態素解析は成熟した技術であるが,依然として未知語に対する頑健な解析モデルの構築が課題である。本論文では,1)日本語の単語分割,2)中国語形態素解析,3)英語音素列の単語分割と品詞タグ付与,4)独語複合名詞の単語分割といった日本語形態素解析とその周辺領域を概観した。次に,ラベル無しコーパスから未知語の解析に有効な情報をうまく取り出す半教師あり学習に基づく形態素解析として,素性駆動型自己学習及び自然注釈を紹介した。また,未知語のうち既知語の異表記として捉えられるものを扱うために,単語の出現形と正規形を同時に生成する確率モデル(拡張品詞2-gram)や,より簡便な辞書を自動拡張する試みについて述べた。さらに,英語からの借用による未知語(片仮名語)に対しては英語と片仮名語の対応関係を利用する言語投影アプローチがとられており,対訳辞書及び翻字モデルを用いる方法を示した。その他の未知語に頑健な形態素解析に関する話題として,i)高速化,ii)大域モデル,iii)教師無し形態素解析,iv)言語資源の整備についても触れた。