抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
形質データセットのミスセンス観察は,無数の生物学的分野での解析のための障害をもたらす。補完の混合結果,多様な利用可能な方法,および実際の形質データセットの多様な構造を考慮して,適切な補完法を選択するためのフレームワークは有利である。与えられた混合型(カテゴリー,計数,連続)の目標データセットのための補完法を選択するために,実際のデータ駆動シミュレーション戦略を導いた。候補方法は,平均/モード帰属,k-最近傍,ランダムフォレスト,および連鎖方程式(MICE)による多変量帰属を含んだ。標的データセットとして,鱗片の形質データセット(リザードとナメナジニア,順位:Squamata)を用いて,ほとんど完全な情報を有する種から成る完全なケースデータセットを,補完法選択のために形成した。異なる欠測機構(ランダム(MCAR)で欠損,ランダム(MAR)で欠損),およびランダムでない(MNAR)の欠損の下で,このデータセットから値を除去することにより,誤解データを誘導した。各方法について,単一遺伝子(核およびミトコンドリア)または多遺伝子樹からの系統発生情報の有無による組合せを用いて,5つの数値および2つのカテゴリー形質の欠損値を帰属した。方法の性能を,それぞれ,数値およびカテゴリーの形質に対する平均二乗誤差および比率誤分類率を決定することによって,各欠測機構の下で評価した。核由来系統発生を補足したランダム森林法は,大部分の形質の最低誤差率をもたらし,この方法を用いて元のデータセットの欠損値を帰属した。入力値を持つデータは,完全ケースデータと比較して,元のデータの特性と分布をより良く反映した。しかし,系統発生として形質データを入力するとき,あらゆる形質およびあらゆるシナリオにおいて,常に性能を改善しなかったとき,注意が必要である。最後に,これらの結果は,与えられた混合型形質データセットのための適切な補完法を選択するための実際のデータ駆動シミュレーション戦略の使用を支持する。欠測データの問題点は,欠測パターンが完全にランダムでないので,形質データセットにおいて問題となる。データが欠落しているかどうかは,データセットにおける他の既知の観察,あるいは欠測データ点自体の値に依存する。解析に完全ケースだけを使用すると,導出された結果は偏った。障害は完全ケース解析の代替であり,データセットに存在する他の形質値によって提供される情報を用いて欠測値を満たす。インピュテーションプロセスにおける系統発生情報を含めることは,欠測値の精度を改善できるが,結果は欠測の量とパターンに依存する。形質データセットのための補完法のほとんどの以前の評価は,考慮されないカテゴリー特性で,数値シミュレーションデータに限定されている。特定のデータセットを与えられた場合,実際のデータ駆動シミュレーション戦略を用いて,補完法を選択する。著者らは,系統発生情報の有無で,また,例爬虫類形質データセットを用いて,異なる模擬欠測パターンの下で,4つの異なる補完法の精度を評価した。結果は,最良性能法を使用するデータが,完全なケースデータと比較して,オリジナルのデータセット特性をより良く反映することを示した。入力性能が与えられたデータセットの特性に依存して変化するので,実際のデータ駆動シミュレーション戦略を用いて,最良の補完実行に関する指針を提供できる。【JST・京大機械翻訳】