referer与user agent的应用

     最近写了个简单的程序,从搜索引擎搜索的数据中爬取内容。

 

    以百度为例,可以用url http://www.baidu.com/s?wd=搜索关键字&pn=页数 建立连接,直接获取到返回的信息。。

 

    在访问其它几个搜索引擎(bing,有道等),发现直接使用url建立连接会返回403拒绝。但用浏览器请求却可以访问。。于是猜测是服务器端对user-agent进行了检查。。增加了伪装user-agent后,果然可以成功获取到了

 

connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows 2000)");

 

   但在用于google的时候,发现获取不到google的搜索内容。用httpWatch观察了请求。发现google并不是直接response中返回结果的。。而是先返回response,则使用js进行获取搜索结果内容。。根据这个顺序猜测可能是referer做过限制。于是增加伪装referer,可以成功获取结果了

 

method.setRequestHeader("referer ",http://www.google.com");

 

经过上面的使用,在平时网站开发中,可以是用user-agent和referer进行处理

1、使用user-agent进行识别是否是用户操作,防止机器重复操作。当然还需要增加一些统计、频率的判断,否则很容易进行模拟

2、使用referer进行防盗链处理 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值