Abstract
把软件产生的 HTTP流当做文本处理去检测恶意软件,准确率99.15%。真实环境下54.81%,比流行的反病毒扫描器强,还可以检测出规避反病毒软件的恶意软件类型。
Related works
三类恶意软件的检测方法
1,基于网络签名的
2,基于包/流统计特征
3,包/流文本特征
前人的工作都没有特别关注HTTP请求头中的丰富语义特性。
Background and motivation
PC端恶意软件和移动端恶意软件的区别在于:
1,硬件资源受限,2,移动端更关注隐私;3,通信协议,与传统的PC恶意软件不同,移动设备利用一组最小的协议类型进行网络通信。HTTP/HTTPS协议是移动恶意软件使用的主要协议。因此,我们需要利用HTTP/HTTPS流量来设计有效的移动恶意软件检测方法。
Methodology
C,N-gram Generation:word的n-gram序列被作为刻画http流的潜在特征
D,Feature Selection:使用卡方检测选择最优特征,卡方检测是一种单变量特征选择算法,为何不把所有n-gram的序列作为特征的原因:(1)减少复杂度;(2)减少噪声。
Evaluation
B,Parameter Setting:针对恶意样本不均衡的问题,采用 F-measure作为评估指标
D,Comparison With Existing Approaches:
(1)与静态分析方法比,Drebin是一种典型的静态分析方法(有待进一步调研何为静态分析)
(2)基于网络级统计特征的模型比,文章是基于http头数据的SVM方法,对比方法是基于网络级统计特征。
(3)对比其他基于http头文件分析的方法,TrafficAV方法是基于从http请求头中提取的特征。
E. Evaluation Using New Malware Samples:
用2014-2016年的数据训练,在2017年数据上测试

F. Evaluation Using Apps in the Wild
野app的野体现在其流量数据来自于流量生成与采集平台,也就是在开放实际的平台采集数据
总结: 本文给出了一种基于http request head 信息检测恶意软件的方法,文章将http request head 当做文本处理,用n-gram,tf等传统方法提取特征,然后赛选特征,然后用SVM作为分类器来检测恶意软件。文章实验部分较为丰富,但逻辑不清晰,大多从实验结果来证明自己方法的优越性,比较论证不充分。采用的方法是传统nlp的方法,新意在于从http request head 信息入手吧。
参考文献
[1]Detecting Android Malware Leveraging Text Semantics of Network Flows