カテゴリー集合分割を用いた決定フォレストによるテキストのモデリング【JST・京大機械翻訳】

Guillame-Bert Mathieu; Bruch Sebastian; Mitrichev Petr; Mikheev Petr; Pfeifer Jan

プレプリント

J-GLOBAL ID：202202210488260382 整理番号：21P0049921

カテゴリー集合分割を用いた決定フォレストによるテキストのモデリング【JST・京大機械翻訳】

Modeling Text with Decision Forests using Categorical-Set Splits

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年09月21日プレプリントサーバーでの情報更新日： 2021年02月05日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

決定森林アルゴリズムは,あらゆるノードが特徴空間を2つの部分領域に分割して,結果として左または右枝に用例を送るように,再帰的にバイナリツリー構造を学習することによって,データをモデル化する。軸整列決定森林において,入力用例を経路する「決定」は,特徴空間における単一次元に関する条件の評価の結果であった。そのような条件は,局所損失関数を最適化する効率的,しばしば greedy欲なアルゴリズムを用いて学習される。例えば,ノード条件は数値特徴に適用される閾値関数であり,そのパラメータはノードで利用可能な値のセットを掃引し,純度のいくつかの測度を最大化する閾値を選択することにより学習される。明らかに,特徴タイプに対する条件を学習し評価するためのアルゴリズムが存在するかどうかは,決定森林アルゴリズムが特徴タイプをすべてモデル化できるかどうかを決定する。例えば,今日の意思決定森林は,テキスト特徴を直接消費できないが,代わりに,そのような特徴を,代わりに要約統計量に変換しなければならない。本研究では,ギャップを橋渡しする。カテゴリー変数の非順序集合として定義されるカテゴリー集合特徴に特異的である条件を定義し,それを学習するためのアルゴリズムを提示し,それにより,逐次順序を保存せずに,テキストを直接モデル化する能力を有する決定森林を編集した。著者らのアルゴリズムは訓練中に効率的であり,得られた条件はQuickScorer推論アルゴリズムの拡張で評価するのに高速である。ベンチマークテキスト分類データセットに関する実験は,著者らの提案の有用性と有効性を実証した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, ,

前のページに戻る