自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 request 和 lxml 爬取代理IP

前记: 原本打算爬下拉勾网的职位,为职业技能做好准备,但是发现拉勾网的json页对ip有次数限制,无奈只好找代理IP,但是发现国内的没多少,而且大部分免费的用不了,不过也当是练习下爬虫吧,这次没有用scrapy或者beautifulsoup,只用了request和lxml来进行爬取,相比之下确实没有那么好用了,不过胜在文件少。 网上也有很多,就不详细说明了,比较简单。多线程爬取和验证IP可用性

2017-07-25 16:11:07 571

原创 用 Scrapy 抓取某家的楼盘信息

在动手写之前,一定要先观察好标签位置! 准备阶段: 这里使用Firefox的插件firebug对进行页面标签确定: 该页面有好几个楼盘信息,所以在看到上面的标签后,应该再找一下它的父节点: 这些就是想要抓的新楼盘列表,id也说明了该ul列表的作用。在子节点中继续寻找到自己想要的信息,找完差不多就可以开始爬虫的编写了。 编写阶段:scrapy startproject

2017-07-22 14:11:05 1326

数据结构题目整理

绪论 4个方面评价算法的质量:正确性 可读性 健壮性 高效率。 算法是指解决问题的有限运算序列,其5个特性:有穷性,确定性,可行性,有零个或多个输入以及一个或多个输出。 数据的物理结构主要包括:顺序存储结构 链式存储结构 索引存储 散列存储

2018-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除