referer与user agent的应用

最新推荐文章于 2023-08-31 13:16:29 发布

wobfei

最新推荐文章于 2023-08-31 13:16:29 发布

阅读量913

点赞数

分类专栏：网站开发

网站开发专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近写了个简单的程序，从搜索引擎搜索的数据中爬取内容。

以百度为例，可以用url http://www.baidu.com/s?wd=搜索关键字&pn=页数建立连接，直接获取到返回的信息。。

在访问其它几个搜索引擎（bing，有道等），发现直接使用url建立连接会返回403拒绝。但用浏览器请求却可以访问。。于是猜测是服务器端对user-agent进行了检查。。增加了伪装user-agent后，果然可以成功获取到了

connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows 2000)");

但在用于google的时候，发现获取不到google的搜索内容。用httpWatch观察了请求。发现google并不是直接response中返回结果的。。而是先返回response，则使用js进行获取搜索结果内容。。根据这个顺序猜测可能是referer做过限制。于是增加伪装referer，可以成功获取结果了

method.setRequestHeader("referer ",http://www.google.com");

经过上面的使用，在平时网站开发中，可以是用user-agent和referer进行处理

1、使用user-agent进行识别是否是用户操作，防止机器重复操作。当然还需要增加一些统计、频率的判断，否则很容易进行模拟

2、使用referer进行防盗链处理