文章目录
day1
1. HTTP协议与WEB开发
爬虫的根本就是模拟人向浏览器发送请求
协议-版本-状态响应码
客户端和服务端,都需要遵循请求和响应协议
2. UA反爬
request请求头中,带上user-agent 参数
3. referer反爬
- 数据解析
- 抓包分析
4. cookie反爬
5. 爬虫的请求参数
6. 爬取图片
雪球网 – 股票
九他他 – 视屏
day2 验证码与JS逆向爬虫
需要找到正则网站 -石墨文档中接口自动化笔记
1. 获取验证码
使用get获取
2.识别验证码
使用图鉴网站
http://www.ttshitu.com/docs/python.html#pageTitle
账号:HJL
密码:Han******
爬虫