作者:qinglianghu
一.网络流量中的善与恶
和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。这些栖息在互联网上的爬虫也是有"善恶"之分的。对于那些遵守网络规定,例如我们熟知的搜索引擎"饲养"的爬虫们就是大家喜爱的。但是那些违反网络规定,通过找漏洞、钻空子赚取暴利,获取大量隐私数的就是不受我们欢迎的。
图1.1 2019年善恶机器和人产生流量的占比
在Imperva的《2020 Bad Bot Report 》中,我们可以看到2019年,善意的机器流量下降到了13.1%,恶意的爬虫流量相比去年(18.1%)上升到了24.1%,几乎占据了全网流量的四分之一。
二.恶意网络流量现状
1.恶意流量等级分布
恶意流量的类型可以根据爬虫程序的复杂程度来进行划分,Imperva 的报告中将其分成了3类。
- Simple:这种一般是简单的容易发现的恶意请求,大概占总恶意请求的五分之一;
- Moderate:这种会更换不同的网络环境,通过匿名代理的方式发出恶意请求;占总恶意请求的一半江山。
- Sophisticated:这种在使用匿名代理的基础上会通过伪造鼠标轨迹、点击等用户交互行为来躲避检测,几乎能完全模拟人类的浏览行为。中高类型的爬虫通常还被称作APBs(Advanced persistent bots),占了7成的恶意流量。
图 2.1 恶意流量等级分布
连续三年,按照复杂程度的恶意流量分布非常一致,最容易检测到的简单恶意请求占比为26.3%;中等占比53.6%;复杂专业的恶意请求占比20.1%。APBs占比73.7%,略高于上一年。秒拨IP技术的发展,使得很多简单的通过IP黑名单方式限制爬虫的方式无效。
2.不同行业恶意流量分布
恶意流量问题遍布每个行业,有一些问题是某些行业独有的。比如只有登录入口的网站可能遭遇的撞库攻击,而价格爬取则主要集中在电商行业。
图2.2 不同行业流量分布占比
金融服务行业 连续第二年以47.7%的恶意流量占比占据所有行业受恶意流量攻击的头名。大部分恶意流量来自撞库攻击,它们的目的是获取这些公司的用户隐私信息。
教育行业 恶意流量占45.7%,爬虫程序一般用于获取论文、学生选课以及获取账号。
市场交易相关行业 这是另外一个受到大量恶意流量攻击的行业,和电子商务类似这部分的爬虫主要用于价格信息和用户账号的获取。
政府 流向政府网站的流量中有37.5%的恶意流量,这部分爬虫基本上爬取的是商业注册信息和选举信息。
非营利性组织 使用非盈利性组织的捐赠页面来验证非法手段得到的金融账号信息的有效性,这部分流量的攻击对于非盈利组织的服务器来说是难以处理的。
航空旅游业 航空旅游业30.5%的恶意流量组成比较复杂,这其中不仅有来自竞争对手的直接爬取,还有一部分来自第三方生态公司。未经授权的代理商、竞争对手以及二手黄牛党使用高级爬虫爬取票价,这不仅增加了普通用户的交易成本,造成了很多客户的投诉,而且爬虫程序还会带来服务器响应速度变慢甚至瘫痪的问题。此外,旅行公司的用户账号也面临被撞库攻击的问题,黑灰产会试图盗取用户账户中的里程积分来牟取暴利。
3.恶意流量来源
七成的恶意流量的来自大型数据中心(云服务提供商),相较于去年略有下降。恶意流量中来自家用网络的比例连续三年增长,又之前的22.7%上涨到了27.8%,来自移动网络的恶意流量占比不高仅占2.3%。
图2.3 2019年恶意流量来源分布情况
从国家角度来看,美国已经连续六年占据榜首,不过相较于去年的53.4%已经下降到了45.9%。中国以4.8%占据第四。
图2.4 2019年恶意流量来源国家分布情况
在抵御恶意流量最多的国家分布中,俄罗斯以21.1%的占比排名第一,中国排名第二。这主要得益于这些国家针对外国网络的封禁。
图2.5 2019年不同多家对恶意流量阻挡情况
三.原因分析与应对方法
2019年网络中恶意的机器流量已经达到全网流量的四分之一。不仅如此,恶意机器流量的发展已经进入了下一个阶段,它们正试图改善自己的形象,使得自己看起来合法。黑灰产运营商正在建立专业的业务,他们从其他网站上"获取"数据、打包数据,并向愿意购买的公司提供数据。所有这些都被巧妙的包装成了“智能商业”的服务。
恶意网络流量快速发展的原因,大概可以归结为如下几点:
1.市场导向
首先,黑灰产有较大的利益可图。目前它们已经拥有了专业外观的网站,提供被称为定价情报、金融替代数据或竞争洞察的商业情报服务。通常,这些企业提供专注于特定行业的数据产品。随着市面上可以购买爬虫爬取的数据越来越多,行业内企业间的竞争压力越来越大。没有企业希望自己,因为信息获取不全而失败。
图3.1 某平台的各种数据榜单
同时,随着会员制度不断的完善和普及,每个用户的账户内都有一些可以兑换或者转移的数字货币或者积分、礼物。来自数据泄露的账户密码与会员制度的增长相结合,为恶意撞库提供了便利。恶意机器程序未经许可从网站上爬取数据(例如定价、库存等)以获得竞争优势。爬取的个人隐私数据甚至会被不法分子利用,从事欺诈、盗窃等违法犯罪活动。
其次,在不同领域对于流量的需求也日益增大。在中国,粉丝为自己喜欢的明星购买流量打榜已经是大家公认的手段。在美国,机器操控的社交媒体账号设置能干预选举的投票。
最后,现在招聘的岗位中出现了很多针对数据爬取相关的岗位,且有着很高的待遇。在这种大环境下,很难看到恶意机器流量问题的消失。
2.灰色地带的网络爬虫
恶意机器流量大部分来自网络爬虫,爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。
在2019年11月的hiQ使用爬虫爬取Linkedin上数据的案件中。法院最终裁定的结果是:被告领英(LinkedIn)公司不得阻止hiQ公司进入、复制并使用LinkedIn网站的公开信息,亦不得采取法律或技术措施进行阻碍,若有则必须在24小时内称除。
下面几种手段或许能在一定程度上缓解恶意爬虫带来的负面影响。
禁止一些过时的User Agent请求头,一般来说爬虫程序的请求是随机生成,且有很多是早些年编写的代码,这部分请求的UA已经过时了。
禁止一些代理服务的提供商,很多爬虫使用的是市面上一些免费活着廉价的第三方的代理服务。禁止这些代理的请求或许是不错的选择。
管理好自己网站的所有访问源。包括网站的移动web版、H5小程序版本,还有分享到第三方平台的链接。
分析网站的请求日志
记录分析网站登陆失败的日志。
原文链接
本文为阿里云原创内容,未经允许不得转载。