最近写了个简单的程序,从搜索引擎搜索的数据中爬取内容。
以百度为例,可以用url http://www.baidu.com/s?wd=搜索关键字&pn=页数 建立连接,直接获取到返回的信息。。
在访问其它几个搜索引擎(bing,有道等),发现直接使用url建立连接会返回403拒绝。但用浏览器请求却可以访问。。于是猜测是服务器端对user-agent进行了检查。。增加了伪装user-agent后,果然可以成功获取到了
connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows 2000)");
但在用于google的时候,发现获取不到google的搜索内容。用httpWatch观察了请求。发现google并不是直接response中返回结果的。。而是先返回response,则使用js进行获取搜索结果内容。。根据这个顺序猜测可能是referer做过限制。于是增加伪装referer,可以成功获取结果了
method.setRequestHeader("referer ",http://www.google.com");
经过上面的使用,在平时网站开发中,可以是用user-agent和referer进行处理
1、使用user-agent进行识别是否是用户操作,防止机器重复操作。当然还需要增加一些统计、频率的判断,否则很容易进行模拟
2、使用referer进行防盗链处理