![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Zoctan
Just do IT.
展开
-
request 和 lxml 爬取代理IP
前记: 原本打算爬下拉勾网的职位,为职业技能做好准备,但是发现拉勾网的json页对ip有次数限制,无奈只好找代理IP,但是发现国内的没多少,而且大部分免费的用不了,不过也当是练习下爬虫吧,这次没有用scrapy或者beautifulsoup,只用了request和lxml来进行爬取,相比之下确实没有那么好用了,不过胜在文件少。 网上也有很多,就不详细说明了,比较简单。多线程爬取和验证IP可用性原创 2017-07-25 16:11:07 · 563 阅读 · 0 评论 -
用 Scrapy 抓取某家的楼盘信息
在动手写之前,一定要先观察好标签位置! 准备阶段: 这里使用Firefox的插件firebug对进行页面标签确定: 该页面有好几个楼盘信息,所以在看到上面的标签后,应该再找一下它的父节点: 这些就是想要抓的新楼盘列表,id也说明了该ul列表的作用。在子节点中继续寻找到自己想要的信息,找完差不多就可以开始爬虫的编写了。 编写阶段:scrapy startproject原创 2017-07-22 14:11:05 · 1308 阅读 · 0 评论