抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
実世界の課題は言語単語やフレーズで視覚的カテゴリーを典型的に定義するが,ほとんどの視覚分類法は数値指数を持つカテゴリーを定義する。しかしながら,クラスの言語仕様は,特に,バイアスおよび雑音のあるデータセットに対して,特に有用であり,そこでは,どの特徴がタスク関連であるかを解消するのを助けることができる。最近,大規模マルチモーダルモデルは,追加の画像訓練データなしでも言語仕様から多様な高レベル概念を認識することが示されているが,それらはしばしばより細かいタスクのためにクラスを識別することができない。対照的に,CNNは,細粒識別に必要な微妙な画像特徴を抽出できるが,データセットにおける任意のバイアスや雑音に過剰に適合する。この洞察は,ディストラクタの代わりにタスク関連特徴に対する分類証拠を制約するためのアドバイスとして高レベル言語仕様を用いることである。これを行うために,事前訓練された大規模モデルから注意マップを持つタスク関連単語またはフレーズを地上に置く。次に,この接地を用いて,分散コンテキストから離れて分類器の空間注意を監督した。この方法における空間的注意の監督は,バイアスおよび雑音のあるデータによる分類タスクに関する性能を改善し,公平性メトリックに関する約3~15%の最悪グループ精度改善および41~45%の相対的改善を含むことを示した。【JST・京大機械翻訳】