摘 要 针对木马流量检测技术存在人工提取特征不够准确、大量标记样本获取困难、无标记样本没有充分利用、模型对于未知样本识别率较低等问题,提出基于半监督深度学习的木马流量检测方法,利用大量未标记网络流量用于模型训练.首先,采用基于mean teacher模型的检测方法提高检测准确率;然后,为解决mean teacher模型中采用随机噪声导致模型泛化能力不足的问题,提出基于虚拟对抗mean teacher模型的检测方法;最后,通过实验验证所提半监督深度学习检测方法在少标记样本下的二分类、多分类以及未知样本检测任务中具有更高的准确率.此外,基于虚拟对抗mean teacher模型的检测方法在多分类任务中比原始mean teacher模型表现出更强的泛化性能.
关键词 木马流量检测;深度学习;半监督模型;mean teacher;虚拟对抗训练
木马,别称木马病毒,英文名为Trojan.它是指隐藏在正常程序中的一段具有特殊功能的恶意代码,是具备破坏和删除文件、发送密码、记录键盘和发起DoS攻击等特殊功能的后门程序.木马病毒是计算机黑客用于远程控制计算机的程序,将控制程序寄生于被控制的计算机系统中,对被感染木马病毒的计算机实施操作.
国内外对木马病毒检测方法的研究开展得较早,检测方法主要包括3种:1)基于程序特征码的检测方法;2)基于主机行为特征的检测方法;3)基于网络行为特征的检测方法.前2种检测方法在木马病毒种类增多和变异较快的特点下性能下降明显;第3种方法因硬件捕获流量能力的提升,可以实时地识别未知流量,弥补了前2种方法的缺陷,已成为学术界的研究热点.
基于网络行为的木马检测方法的有效性主要取决于特征的提取和分类算法.传统机器学习方法依靠人工设计的特征,如基于网络协议的特