抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
機械学習の開発を効率的に進めるための手法の一つとしてMLパイプラインが挙げられる.MLパイプラインとは,ステージと呼ばれる,機械学習開発で行われるデータ取得,特徴づけ,学習などの工程を1つにつなげ,順番に自動で実行する機能である.MLパイプラインを実現するアプリケーションとして,Data Version Control(DVC)が挙げられる.DVCは,MLパイプラインに加えて,データバージョン管理やリモートリポジトリ管理が可能で,有用な機能を多く持っているためGitHub上のプロジェクトでよく利用される.しかし,実際にどのようなMLパイプラインが作成されているかはあまり知られていない.これらの知見を得ることは,最適なMLパイプラインの選択や,有効でないMLパイプラインを除外する上で重要であると考える.そこで本研究では,DVCを使用しているプロジェクト内の540個のMLパイプラインを対象に,MLパイプラインファイル内のステージの変化に関する調査を行い,推奨されるMLパイプライン作成の指針を提示する.調査の結果,プロジェクト存在期間にパイプラインファイルが変更された回数は平均2.9回,中央値3.0回であった.また,パイプラインファイルが編集されたコミット全てを対象とすると,モデル学習ステージの変更が最も多く,データ取得ステージでの変更が最も少なかった.さらに,MLパイプラインをコミット数により3つのパターンに分けたとき,最終的なMLパイプラインはどのパターンもデータ取得,モデル学習,モデル評価の構成であるものが最も多いということがわかった.(著者抄録)