小白做爬虫,爬虫四步曲

  1. 获取网页
    python有许多库来帮助我们获取网页,如urllib、requests等 ,这些库帮助我们实现HTTP请求操作,我们只需要解析数据结构中的Body部分即可。

  2. 提取信息(解析信息)
    一种方法是采用正则表达式,当然该法易出错;
    一种方法是根据网页结点属性、CSS选择器或XPath来提取网页信息,这一方法有专门的库如BeautifulSoup、pyquery、lxml等 。

  3. 保存数据
    保存形式可以多样,可以是TXT,也可以是EXCEL,还可以是JSON,还可以写到数据库中。(我的目标 是形成EXCEL,以便 发日报 使用。)

  4. 自动化程序
    让爬虫代替人自动地快速大量爬取数据,即它在爬取时可以进行各种异常处理,错误重试等 操作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值