ソースコードの「自然さ」を利用した自動生成ファイルの特定

土居真之; 肥後芳樹; 有馬諒; 下仲健斗; 楠本真二

文献

J-GLOBAL ID：201802228310826295 整理番号：18A0322496

ソースコードの「自然さ」を利用した自動生成ファイルの特定

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0322496&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0322496&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (5件)： , , , ,
資料名：
巻： 117 号： 380(MSS2017 47-76) ページ： 19-24 発行年： 2018年01月11日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,ソースコード解析に関する研究が盛んに行われている。ソースコードの解析において,解析対象のソースファイルの中には自動生成ファイルが含まれていることがある。しかし解析結果が目立たない場合や解析時間が増加する場合があるため,多くの場合自動生成ファイルは除外して解析する必要がある。自動生成ファイルを除外する方法として,ソースコードが自動生成ファイルであるかを目視で判定するという方法がある。しかしこの方法は時間的コストが大きくなってしまう。他にも自動生成ファイル内に存在する特有のコメント文を文字列検索することにより特定するという方法があるが,この方法に関しても,自動生成ファイル特有のコメント文が消された場合に,自動生成ファイルを自動的に特定できないといった問題がある。そこで本研究では,自動生成コードとしての「自然さ」と人が作成したコードとしての「自然さ」を比較することで任意の自動生成ファイルを自動的に特定する手法を提案する。コードの自然さ,すなわち,自動生成あるいは人が生成したコードとしてもっともらしい度合いは,確率的言語モデルであるN-gram言語モデルによって数値化する。この提案手法を評価するために,4つの自動生成プログラムから生成された自動生成ファイル群を対象に実験を行った。その結果,高い精度で自動生成ファイルを特定できた。また,機械学習に基づいた既存の手法と比較した結果,精度が向上していることを確認した。(著者抄録)

, , , , ,
, , , ,

計算機システム開発

引用文献 (13件)：

大田崇史,井垣宏,堀田圭祐,肥後芳樹,楠本真二他,′′ソフトウェア開発におけるコピーアンドペーストによって生じたコード片に対する調査,′′研究報告ソフトウェア工学(SE), vol.2014, no.22, pp.1-6, 2014.
A.C. MacLean, L.J. Pratt, J.L. Krein, and C.D. Knutson, ′′Trends that affect temporal analysis using sourceforge data,′′ Proceedings of the 5th International Workshop on Public Data about Software Development (WoPDaSD' 10), p.6, 2010.
下仲健斗,鷲見創一,肥後芳樹,楠本真二,′′機械学習を用いた自動生成コードの特定,′′電子情報通信学会技術研究報告,第115巻,pp.165-170,2016.
′′GitHub′′. https://github.com/
高澤亮平,坂本一憲,鷲崎弘宜,深澤良彰,′′Repositoryprobe:リポジトリマイニングのためのデータセット作成支援ツール,′′ コンピュータソフトウェア,vol.32, no,4, pp,4_103-4_114, 2015.

, ,

前のページに戻る