- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 request 和 lxml 爬取代理IP
前记: 原本打算爬下拉勾网的职位,为职业技能做好准备,但是发现拉勾网的json页对ip有次数限制,无奈只好找代理IP,但是发现国内的没多少,而且大部分免费的用不了,不过也当是练习下爬虫吧,这次没有用scrapy或者beautifulsoup,只用了request和lxml来进行爬取,相比之下确实没有那么好用了,不过胜在文件少。 网上也有很多,就不详细说明了,比较简单。多线程爬取和验证IP可用性
2017-07-25 16:11:07 571
原创 用 Scrapy 抓取某家的楼盘信息
在动手写之前,一定要先观察好标签位置! 准备阶段: 这里使用Firefox的插件firebug对进行页面标签确定: 该页面有好几个楼盘信息,所以在看到上面的标签后,应该再找一下它的父节点: 这些就是想要抓的新楼盘列表,id也说明了该ul列表的作用。在子节点中继续寻找到自己想要的信息,找完差不多就可以开始爬虫的编写了。 编写阶段:scrapy startproject
2017-07-22 14:11:05 1326
数据结构题目整理
2018-03-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人