SIBIL:機械学習を用いた類似バイナリ関数の検出方法

MASUBUCHI Yuma; HASHIMOTO Masaki; OTSUKA Akira

文献

J-GLOBAL ID：202202238875529430 整理番号：22A1213774

SIBIL:機械学習を用いた類似バイナリ関数の検出方法

SIBYL: A Method for Detecting Similar Binary Functions Using Machine Learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1213774&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1213774&from=J-GLOBAL&jstjournalNo=U0469A") }}

著者 (3件)： , ,
資料名：
巻： E105.D 号： 4 ページ： 755-765(J-STAGE) 発行年： 2022年
JST資料番号： U0469A ISSN： 1745-1361 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：英語 (EN)

バイナリコードの類似性比較方法は,主にソフトウェアのバグを見つけ,ソフトウェアの盗用を検出し,マルウェア分析中の作業負荷を軽減するために使用されます。本論文では,制御フローグラフ(CFG)と各関数に含まれる分解された命令シーケンスの組合せを用いて各関数のバイナリコード類似性を比較し,特定の関数との類似性が高い関数を検出する方法を提案した。類似性比較を行う際の課題の一つは,コンパイル時の最適化とアーキテクチャが異なると,バイナリコードも異なることである。コードを比較するための主な単位は,命令,基本ブロック,および関数である。関数の課題は,基本ブロックが組み合わされたグラフ構造を持っているため,類似性を導き出すのが比較的難しいことである。しかし,IDAのような解析ツールは,機能単位で分解された命令シーケンスを示す。関数ベースで類似性を検出することには,アナリストによる理解の簡素化を促進するという利点がある。前述の課題を解決するため,自然言語処理の分野で機械学習法を用いた。この分野には,2017年現在,さまざまな言語処理タスクの各記録を更新するトランスフォーマーモデルがあり,2021年現在,トランスフォーマーは言語処理タスクの各記録を更新するBERTの基盤となっている。また,グラフ構造から各ノードの特徴を捉えるために機械学習技術を用いたノード2vecと呼ばれる方法がある。本論文では,トランスフォーマーとノード2vecの組合せであるSIBYLを提案した。SIBYLでは,類似のアイテムが近づき,異種アイテムが移動されるように,学習中に三重項損失と呼ばれる方法を用いる。SIBYLを評価するために,実世界で広く使われているオープンソースソフトウェアを用いた新しいデータセットを作成し,そのデータセットを用いて訓練と評価実験を行った。評価実験では,Rank1とMRRのような評価指数を用いて,さまざまなアーキテクチャにわたるバイナリコードの類似性を評価した。実験結果は,SIBYLが既存の研究より優れていることを示した。これは,機械学習がグラフ構造の特徴と関数ごとの命令の順序をキャプチャできるという事実によると考える。これらの実験の結果を詳細に示し,続いて議論と結論を得た。(翻訳著者抄録)

, , , , , , , ,
, ,

著者キーワード (5件)： , , , ,

人工知能 , 自然語処理

引用文献 (32件)：

[1] A. Grover and J. Leskovec, “node2vec: Scalable feature learning for networks,” Proc. 22nd ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, pp.855-864, San Francisco California USA, Aug. 2016. doi: 10.1145/2939672.2939754. 10.1145/2939672.2939754
[2] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in Neural Information Processing Systems, pp.6000-6010, 2017.
[3] I.U. Haq and J. Caballero, “A survey of binary code similarity,” arXiv:1909.11424 [cs], Sept. 2019.
[4] J. Pewny, B. Garmany, R. Gawlik, C. Rossow, and T. Holz, “Cross-architecture bug search in binary executables,” IEEE Symposium on Security and Privacy, IEEE Computer Society, 2015. 10.1109/SP.2015.49
[5] S. Eschweiler, K. Yakdan, and E. Gerhards-Padilla, “discovRE: Efficient cross-architecture identification of bugs in binary code,” Network and Distributed System Security Symposium, 2016. 10.14722/ndss.2016.23185

, , , ,

前のページに戻る