爬虫
文章平均质量分 53
zhangzeguang88
这个作者很懒,什么都没留下…
展开
-
工具篇:(做爬虫的家底工具) 准备工作
大家好,为了20141120课堂上节省时间, 一下工具可以提前自行安装下,能装几个装几个,有问题的可以留言,课堂开始会预留一部分时间,协助大家部分安装有问题的。1:httpwather安装: 下载最新版 或者用个人使用的 链接: http://pan.baidu.com/s/1c0dBIX6 密码: 3ecz (带license) 一路next,对高版本的firefox支转载 2015-05-26 16:41:18 · 789 阅读 · 1 评论 -
simple-json在java中的解析
http://code.google.com/p/json-simple/wiki/EncodingExamples#Example_1-1_-_Encode_a_JSON_objectjavac -cp ./json-simple.jar SplitDemo.javajava -cp _CLASSPATH:./json-simple.jar SplitDemopubl转载 2015-05-26 19:29:25 · 3015 阅读 · 0 评论 -
http请求头参数详解
转自:http://www.cnblogs.com/MCHang/archive/2013/03/19/2968827.html当我们打开一个网页时,浏览器要向网站服务器发送一个HTTP请求头,然后网站服务器根据HTTP请求头的内容生成当次请求的内容发送给浏览器。你明白HTTP请求头的具体含意吗?下面一条条的为你详细解读,先看某一次HTTP请求头的具体内容:Ac转载 2016-06-01 10:08:10 · 2938 阅读 · 0 评论 -
http accept-encoding详解 HTTP协议-压缩(gzip,deflate)
本文会使用Fiddler来查看HTTP request和Response, 如果不熟悉这个工具,可以先参考[Fiddler教程]HTTP压缩是指: Web服务器和浏览器之间压缩传输的”文本内容“的方法。 HTTP采用通用的压缩算法,比如gzip来压缩HTML,Javascript, CSS文件。 能大大减少网络传输的数据量,提高了用户显示网页的速度。当然,同时会增加一点点服务器的开销。 本转载 2016-06-01 10:34:23 · 37529 阅读 · 3 评论 -
常见反爬错略
工作中的爬虫是授权的实时抓取,在授权的实时抓取过程中,首要难点是模拟登录部分,其次是抓取部分,今天主要对工作期间遇到的一些反爬策略进行阐述。另外,提一下在抓取开发过程中几点小小建议原创 2016-05-21 00:21:43 · 1048 阅读 · 0 评论 -
HttpClient和HtmlUnit的比较总结
下面我们首先来看下2个组件的区别和优劣性:HtmlUnit:HtmlUnit本来是一款自动化测试的工具,它采用了HttpClient和java自带的网络api结合来实现,它与HttpClient的不同之处在于,它比HttpClient更“人性化”。 在写HtmlUnit代码的时候,仿佛感觉到的就是在操作浏览器而非写代码,得到页面(getPage)-- 寻找到文本框(ge转载 2016-07-29 11:37:55 · 542 阅读 · 0 评论