在同学指导下,今天(2016.0720)起研究爬虫
1,网上查了一点资料了解爬虫
http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html
2,根据别人代码运行爬虫
http://www.jb51.net/article/42048.htm
3,代码报错403,网页是0k,无内容
网上说是一般网站都会做的防抓取,一般常见方式,
ip访问频率限制,低于这个频率或者 使用ip代理访问
通过一些cookie隐藏的参数做限制,看看哪些cookie会影响,需要根据抓取的网站分析
4,解决以上问题
相关文章
http://cruiserzpt99.blog.163.com/blog/static/66524928201281854045624/
http://ipfire.iteye.com/blog/978063
http://blog.csdn.net/trojx2/article/details/50363418
http://www.cnblogs.com/scrat/p/3456731.html
http://www.bkjia.com/ASPjc/615142.html
http://blog.sina.com.cn/s/blog_9ed7f0d70101i8op.html
http://blog.csdn.net/zhouzhiwengang/article/details/42062457
5,还是指抓到了一个网页就报403,但是这个网页不再是0k,有内容,但内容是乱码
6,解决乱码
http://zhidao.baidu.com/link?url=vDEntDY1uq0z7htRIyT0n8i2tzfatwYaK2FZvRwaWSSl80-j-4YTR4nzvxqOv9OpLFymZ8przOnx13i8KSerRq
7,解决403
http://www.zhihu.com/question/34980963
http://www.zhihu.com/question/37982503?sort=created