一、背景:
大数据时代,谁拥有数据谁才能有未来,很多互联网公司本身并不产生数据,怎么办?抓数据,对抓数据,所以在目前巨大的网络流量中有相当一部分是爬虫流量,如搜索引擎蜘蛛、抓取电商网站的商品数据的爬虫等。如本文开始所述,数据即未来,有数据的凭什么让你抓,所以会对用户访问做一些访问频次限制,超过设定就拉黑(如封ip、封特定user agent、封url等),但这也只是做频次限制而已,并没有完全封死,因为封死意味着正常用户也无法访问。本文所要解决的问题就是在ip被封后如何快速简单的切换ip、按需更换ip。
二、在用方案图展示:
三、硬件需求:
1、支持vlan的2层交换机,比如24口的最多可以接23条adsl猫
2、配置一般的linux服务器,最好千兆网卡,最好3块网卡(理论上一块网卡也可以,为避免相互影响,容错,使网络结构清晰,采用3块千兆网卡)
3、普通内网交换机,这个都有吧
四、核心技术原理:
1、一条ADSL一个vlan,和服务器相连的端口做trunk。为什么要一条adsl一个vlan?因为联通、电信等运营商会对每个adsl账号做mac地址限制,一个mac地址只能拨一个号,这也是为什么当2个以上的adsl同时拨号时只有一条adsl可用。
2、linux服务器上创建和adsl的vlan ID相同的虚拟接口。为什么要在linux创建vlan虚接口?实现和adsl的隔离,减少相互干扰,每条ad彼此独立,而且如果用子网卡的话,不能修改mac地址,即使修改成功,所有的子网卡和主网卡的mac也是一致的,不能满足多条adsl同时拨号的的要求,故必须采用vlan虚接口。
3、接光纤的网卡采用子网卡挂多个公网ip
4、linux服务器采用源地址路由技术。为什么?squid的tcp_outgoing_address只支持ip地址,不支持设备名