抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Twitterのようなマイクロブロギングサイトはユビキタス情報源として出現している。Microblogsにおける情報の自動抽出と解析に関連した2つの重要なタスクは,エントリティメーション検出(EMD)とエンティリティ検出(ED)である。最先端のEMDシステムは,オフライン静的データセットの訓練により,マイクロブログテキストの非リテラリー特性をモデル化することを目的とする。それらは,雑音のあるテキストモデリングとエンティティ抽出のために,個々のメッセージから,表面レベル特徴,すなわち,オルソグラフ,語彙,および意味の組合せを抽出する。しかし,マイクロブログストリームの絶えず進化する性質を考えると,短いメッセージのそのような変化ではあるが限られたコンテキストから全てのエンティティの検出は困難な問題である。この目的のために,EMDグローバル化器と呼ぶフレームワークを提案し,マイクロブログストリーム上のEMD学習者の実行に,より適切であった。それは,既存のEMDシステムによる分離マイクロブログメッセージの処理から逸脱し,そこでは,メッセージの即時コンテキストからの学習知識を用いて,エンティティを示唆した。EMDシステムによるエンティティ候補の初期抽出の後,提案フレームワークは,この最初の検出中に見逃される追加候補の言及を見つけるため,発生マイニングを利用した。これらの記述の局所文脈表現を集約して,ストリーム内のエンティティ候補の集合的文脈から大域的埋込みを描いた。次に,大域的埋込みを用いて,偽陽性から候補内のエンティティを分離した。ストリームからの前述のエンティティのすべての言及は,フレームワークの最終出力で作り出される。著者らの実験は,EMDグローバル装置が,小さな付加的計算オーバヘッドでテストしたすべての既存のEMDシステム(平均25.61%)の有効性を強化することができることを示した。【JST・京大機械翻訳】