java爬虫历程

最新推荐文章于 2020-10-25 23:00:26 发布

依若zlh

最新推荐文章于 2020-10-25 23:00:26 发布

阅读量328

点赞数

分类专栏：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlhzlh11/article/details/51968248

版权

学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在同学指导下，今天（2016.0720）起研究爬虫

1，网上查了一点资料了解爬虫

http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html

2，根据别人代码运行爬虫

http://www.jb51.net/article/42048.htm

3，代码报错403，网页是0k，无内容

网上说是一般网站都会做的防抓取，一般常见方式，

ip访问频率限制，低于这个频率或者使用ip代理访问

通过一些cookie隐藏的参数做限制，看看哪些cookie会影响，需要根据抓取的网站分析

4，解决以上问题

相关文章

http://cruiserzpt99.blog.163.com/blog/static/66524928201281854045624/

http://ipfire.iteye.com/blog/978063

http://blog.csdn.net/trojx2/article/details/50363418

http://www.cnblogs.com/scrat/p/3456731.html

http://www.bkjia.com/ASPjc/615142.html

http://blog.sina.com.cn/s/blog_9ed7f0d70101i8op.html

http://blog.csdn.net/zhouzhiwengang/article/details/42062457

5，还是指抓到了一个网页就报403，但是这个网页不再是0k，有内容，但内容是乱码

6，解决乱码

http://zhidao.baidu.com/link?url=vDEntDY1uq0z7htRIyT0n8i2tzfatwYaK2FZvRwaWSSl80-j-4YTR4nzvxqOv9OpLFymZ8przOnx13i8KSerRq

7，解决403

http://www.zhihu.com/question/34980963

http://www.zhihu.com/question/37982503?sort=created

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬虫历程

在同学指导下，今天（2016.0720）起研究爬虫1，网上查了一点资料了解爬虫http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html2，根据别人代码运行爬虫http://www.jb51.net/article/42048.htm3，代码报错403网上说是一般网站都会做的防抓取，一般常见方式，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。