高精度的商业电子邮件入侵检测

High Precision Detection of Business Email Compromise

高精度的商业电子邮件入侵检测

1.背景

(1)刊物/会议级别

USENIX Security

2019年8月14-16日

(2)作者团队

梭鱼网络,哥伦比亚大学

(3)论文背景

2013-2018年间,商业电子邮件欺诈(BEC)造成的经济损失高达120亿美元,远远超过其他诸如勒索软件等网络攻击手段所造成的损失。BEC主要由以下几种形式:

  • 要求受害者转账到指定账户
  • 要求填写包含社保号码的表格
  • 引诱点击钓鱼链接

这些攻击的共同特点是:攻击者假扮为受害者的上司或同事

本文作者的研究聚焦于来自组织外部,并且假冒为公司员工的攻击(不考虑攻击者使用一个被劫持的内部电子邮件账号来假冒公司员工)

传统的电子邮件安全系统对于BEC的检测效果不理想的原因:

传统的电子邮件安全系统主要通过两个特征来检测:

  1. malicious(恶意性),即电子邮件是否包含恶意附件和恶意链接,以及是否来自一个低信誉度的域名。
  2. volumetric(传播次数),即相同格式的邮件被同时发送给许多人(包含相同的邮件内容或相同的URL)

然而,假冒内部员工的邮件不包含这两个特征。

现有的检测假冒邮件的方法要么数据集太小,要么检测的只是假冒邮件的一个子集(伪造域名或带有恶意链接),并且准确率不高,误报率令人难以接受。

检测BEC的一个挑战是:BEC的邮件非常少,50000个邮件中的BEC邮件少于一个。

因此,为了实现低误报率的目标,作者设计了一个使用监督学习的系统。但这又带来两个问题:

  • 标记包含数百万封电子邮件的训练集异常困难
  • 在这样一个不平衡的数据集上训练一个分类器也是困难的(BEC邮件比正常邮件低了五个数量级)

所以作者提出的模型基于历史邮件,分成两个步骤:

  1. impersonation classifier (“假冒”分类器):通过检查邮件头部来确定攻击者是否假冒公司员工(利用员工常用邮件地址等信息)

  2. content classifiers (内容分类器):“假冒”分类器认定为假冒邮件,再检查邮件正文,以确定是否为BEC邮件

    对于不含链接的邮件,使用KNN聚类算法;包含链接的邮件,使用随机森林算法。

主要贡献如下:

  • 第一个能够实时检测BEC的系统,并且有准确率高和误报率低的特点。
  • BEC-Guard系统的创新在于依赖云邮件提供商API,既可以学习每个组织的历史通信模式,又可以实时检测攻击。
  • 为了处理数百万封电子邮件的标记难题,我们将检测问题分为两个部分。
  • 对邮件的标题和文本使用不同类型的分类器。邮件头文件使用随机森林进行分类,而文本分类主要依赖于KNN模型,该模型不依赖于任何硬编码特征,并且可以很容易地重新训练
  • 为了在不平衡数据集上训练“假冒”分类器,我们使用聚类算法对合法邮件使用采样技术。

2.论文主要方法

(1)BEC的三种常见类型

  • wire transfer(电子转账钓鱼):攻击者诱导受害者进行电子转账
  • rapport(亲密关系钓鱼):不直接要求转账,而是首先发送一封邮件,取得信任后再要求转账等操作
  • impersonation (假冒钓鱼):使用虚假名称,诱导受害者点击恶意链接

(2)特征选取

Header attributes(邮件头部特征):

  1. 电子邮件账户名称和常用邮件地址不相符
  2. 发件人地址和reply-to(回复)地址不同
  3. 邮件发送时间是否正常,IP是否是常用IP等特征

Body attributes(邮件正文特征):

  1. 包含敏感信息(电子转账等)
  2. 包含特别的,立即的要求
  3. 链接
  4. 邮件格式和风格信息

利用历史邮件:

利用诸如Office365,Gmail等云邮件服务商API访问其历史邮件

(3)分类器的特征设计

因为BEC邮件数量非常少,所以无监督学习,诸如聚类等算法的效果不佳。所以作者选择用监督算法来实现分类器,但这又会带来两个问题:

  • 标记包含数百万封电子邮件的训练集异常困难
  • 即使有了标记好的训练集,依然会有数据不均衡造成的分类困难

所以把分类器分成两部分:

  • impersonation classifier (“假冒”分类器):通过检查邮件头部来确定攻击者是否假冒公司员工(利用员工常用邮件地址等信息)
特征描述
Sender has corp domain?发送地址是否属于公司域名?
Reply-to != sender address?回复地址是否和发送地址不同?
Num times sender and email发送者名称和发件地址出现的次数
Num times reply-to address回复地址出现的次数
Known reply-to service?回复地址是否为知名网站?
Sender name popularity发送者名称的知名度
  • content classifiers (内容分类器):“假冒”分类器认定为假冒邮件,再检查邮件正文,以确定是否为BEC邮件

content classifiers contains :

  1. Text classifier:针对第一类和第二类常见的BEC邮件
  • 第一步:预处理邮件文本,去除一些诸如敬语等常规表达模式
  • 第二步:计算TFIDF值(分数越高,代表一个单词在一封特定的邮件中出现的概率越大,但是含有这个单词的邮件月稀少)
  1. Link classifier:针对第三类BEC邮件

(4)分类器算法设计

impersonation classifier (“假冒”分类器)和 link classifier(链接分类器)使用随机森林算法

text classifier使用KNN算法

(5)给数据集做标签

三个原则:

  • 假定攻击者使用员工姓名来冒充员工
  • 假定攻击者使用相同的电子邮件地址的假冒员工攻击不会超过100次
  • 假定攻击者使用的电子邮件地址不同于正常的公司地址

符合上述三个原则的电子邮件标记为BEC邮件,作为impersonation classifier的训练集。

然后在一个新的数据集上运行impersonation分类器,结果作为Content classifiers的初始训练集。

因为impersonation classifier的训练集是一个不平衡的数据集,所以采用对正常邮件进行欠采样操作:

  • 使用高斯混合模型(Gaussian Mixture Models)进行聚类操作,将正常邮件分类,然后每个类别按比例抽取。

3.实验

使用2018年6月BEC-Guard处理过的包含几百个组织的两亿封邮件,人工对其进行标记,发现了4221封BEC邮件。

然后把数据集均分为两份,一份用作训练集,一份用于测试。得到最终的结果:

准确率误报率召回率
BEC-Guard(Combined)98.2%0.000019%96.9%

4.结论

BEC是一个重大的网络安全威胁,每年造成数十亿美元的经济损失。

文章提出的第一个能够以高准确率和低误报率检测BEC的系统BEC-Guard,是一种新的基于api体系结构,结合监督学习方法,能够实时组织BEC攻击的系统。

虽然攻击者会不断调整战术和方法,但是该系统通过api的架构使用历史邮件模式的监督学习方法可以快速重新训练分类器,因此在应对不断演变的威胁方面非常有用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值