【源码+文档】基于Python实现爬虫Demo

爬虫基本套路

  • 基本流程
    • 目标数据
    • 来源地址
    • 结构分析
    • 实现构思
    • 操刀编码
  • 基本手段
    • 破解请求限制
      • 请求头设置,如:useragant 为有效客户端
      • 控制请求频率(根据实际情景)
      • IP 代理
      • 签名/加密参数从 html/cookie/js 分析
    • 破解登录授权
      • 请求带上用户 cookie 信息
    • 破解验证码
      • 简单的验证码可以使用识图读验证码第三方库
  • 解析数据
    • HTML Dom 解析
      • 正则匹配,通过的正则表达式来匹配想要爬取的数据,如:有些数据不是在 HTML 标签里,而是在 HTML 的 script 标签的 js 变量中
      • 使用第三方库解析 HTML dom,比较喜欢类 jQuery 的库
    • 数据字符串
      • 正则匹配(根据情景使用)
      • 转 JSON/XML 对象进行解析

python 爬虫

  • python 写爬虫的优势
    • python 语法易学,容易上手
    • 社区活跃,实现方案多可参考
    • 各种功能包丰富
    • 少量代码即可完成强大功能
  • 涉及模块包
    • 请求
      • urllib
      • urllib2
      • cookielib
    • 多线程
      • threading
    • 正则
      • re
    • JSON 解析
      • json
    • HTML dom 解析
      • pyquery
      • beautiful soup
    • 操作浏览器
      • selenium

 源码和文档都托管在了【WRITE-BUG数字空间】上面了,有需要的可自取~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值