プレプリント
J-GLOBAL ID:202202200734632841   整理番号:22P0330597

単一訓練ランダムフォレストによるGini変数重要度の閾値化:経験的Bayesアプローチ【JST・京大機械翻訳】

Thresholding Gini Variable Importance with a single trained Random Forest: An Empirical Bayes Approach
著者 (8件):
資料名:
発行年: 2023年06月15日  プレプリントサーバーでの情報更新日: 2023年06月15日
JST資料番号: O7001B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
【背景】Random森林(RF)は,広く使われるモデリングツールであり,可変重要度測定による特徴選択を可能にする。このために,偽陽性からラベル関連特徴を分離する閾値が必要である。可変重要度測度の特性の良好な理解がない場合,現在のアプローチは,置換ヌルを介して統計的電力を生成するために,多重RFを訓練することにより特徴を選択することを試み,再帰的特徴除去または両方の組み合わせを採用する。しかし,数百万の変数を持つゲノムデータのような高次元データセットでは,これは計算不可能であった。方法:著者らは,どの特徴が予測ラベルと有意に関連しているかを同定し,偽陽性を減らす閾値化のための統計的アプローチであるRF局所fdrを提示した。それは,Efron(2005)の経験的Bayes議論上に構築して,2つの分布-ヌルと非-ヌル「遺伝子」の混合物として変数の重要性をモデルした。【結果】著者らは,RF局所fdrが計算的により集中的なアプローチに等価精度を有する一方,最大100倍高速であることを示した。RFローカルfdrは,6つのMillion特徴と10,000のサンプルでデータセットをうまく閾値化できる唯一の試験方法である。RF局所fdrfdrは実時間で分析を実行し,可変重要度と数,例えば,測距者やVariantSparkのような,任意のRF実装と互換性がある。結論:RFローカルfdrは,予測重要度スコアに信頼値を置くことにより,ロバストな特徴選択を可能にする。それは,RFの反復フィッティングまたは付加的陰影変数の使用なしで,非常に多くの変数を有するデータセットのために使用可能であった。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  分子・遺伝情報処理 

前のページに戻る