爬虫基本套路
- 基本流程
- 目标数据
- 来源地址
- 结构分析
- 实现构思
- 操刀编码
- 基本手段
- 破解请求限制
- 请求头设置,如:useragant 为有效客户端
- 控制请求频率(根据实际情景)
- IP 代理
- 签名/加密参数从 html/cookie/js 分析
- 破解登录授权
- 请求带上用户 cookie 信息
- 破解验证码
- 简单的验证码可以使用识图读验证码第三方库
- 破解请求限制
- 解析数据
- HTML Dom 解析
- 正则匹配,通过的正则表达式来匹配想要爬取的数据,如:有些数据不是在 HTML 标签里,而是在 HTML 的 script 标签的 js 变量中
- 使用第三方库解析 HTML dom,比较喜欢类 jQuery 的库
- 数据字符串
- 正则匹配(根据情景使用)
- 转 JSON/XML 对象进行解析
- HTML Dom 解析
python 爬虫
- python 写爬虫的优势
- python 语法易学,容易上手
- 社区活跃,实现方案多可参考
- 各种功能包丰富
- 少量代码即可完成强大功能
- 涉及模块包
- 请求
urllib
urllib2
cookielib
- 多线程
threading
- 正则
re
- JSON 解析
json
- HTML dom 解析
pyquery
beautiful soup
- 操作浏览器
selenium
- 请求
源码和文档都托管在了【WRITE-BUG数字空间】上面了,有需要的可自取~