DVCリポジトリにおけるMLパイプラインの進化に関する調査

中村悠人; 松尾春紀; 松田雄河; 近藤将成; 亀井靖高; 鵜林尚靖

文献

J-GLOBAL ID：202202226554017335 整理番号：22A0934873

DVCリポジトリにおけるMLパイプラインの進化に関する調査

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0934873&COPY=1") }}
このテーマを更に深掘りする（JDreamⅢへ） {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0934873&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2022 号： SE-210 ページ： Vol.2022-SE-210,No.18,1-8 (WEB ONLY) 発行年： 2022年03月04日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

機械学習の開発を効率的に進めるための手法の一つとしてMLパイプラインが挙げられる.MLパイプラインとは,ステージと呼ばれる,機械学習開発で行われるデータ取得,特徴づけ,学習などの工程を1つにつなげ,順番に自動で実行する機能である.MLパイプラインを実現するアプリケーションとして,Data Version Control(DVC)が挙げられる.DVCは,MLパイプラインに加えて,データバージョン管理やリモートリポジトリ管理が可能で,有用な機能を多く持っているためGitHub上のプロジェクトでよく利用される.しかし,実際にどのようなMLパイプラインが作成されているかはあまり知られていない.これらの知見を得ることは,最適なMLパイプラインの選択や,有効でないMLパイプラインを除外する上で重要であると考える.そこで本研究では,DVCを使用しているプロジェクト内の540個のMLパイプラインを対象に,MLパイプラインファイル内のステージの変化に関する調査を行い,推奨されるMLパイプライン作成の指針を提示する.調査の結果,プロジェクト存在期間にパイプラインファイルが変更された回数は平均2.9回,中央値3.0回であった.また,パイプラインファイルが編集されたコミット全てを対象とすると,モデル学習ステージの変更が最も多く,データ取得ステージでの変更が最も少なかった.さらに,MLパイプラインをコミット数により3つのパターンに分けたとき,最終的なMLパイプラインはどのパターンもデータ取得,モデル学習,モデル評価の構成であるものが最も多いということがわかった.(著者抄録)

, , , , , , ,

計算機システム開発

引用文献 (12件)：

S. Amershi, A. Begel, C. Bird, R. DeLine, H. Gall, E. Kamar, N. Nagappan, B. Nushi, and T. Zimmermann. Software engineering for machine learning: A case study. In Proceeding of the IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP), pp. 291-300, 2019.
iterative.ai. ′′Open-source Version Control System for Machine Learning Projects′′. http://dvc.org/ (閲覧日:2022年2月8日).
D. Sculley, G. Holt, D. Golovin, E. Davydov, T. Phillips, D. Ebner, V. Chaudhary, M. Young, J.-F. Crespo, and D. Dennison. Hidden technical debt in machine learning systems. Advances in neural information processing systems, Vol. 28, 2015.
I. Karamitsos, S. Albarhami, and C. Apostolopoulos. Applying devops practices of continuous automation for machine learning. Information, p. 363, 2020.
R. S. Olson, N. Bartley, R. J. Urbanowicz, and J. H. Moore. Evaluation of a tree-based pipeline optimization tool for automating data science. In Proceedings of the genetic and evolutionary computation conference 2016, pp. 485-492, 2016.

, , , ,

前のページに戻る