前言
2021.07.14开始系统地学习爬虫:2020年Python爬虫全套课程(学完可做项目)
第一章
一、爬虫简介
- 概念:模拟&抓取
- 价值:实际应用&就业
- 合法性:
法律上不禁止
具有违法风险 (干扰网络正常运营;爬取法律保护的数据)
应对:
优化代码;审查爬取内容
二、爬虫分类
- 通用爬虫: 抓取一整张页面内容;
- 聚焦爬虫: 抓取页面的局部内容;
- 增量式爬虫: 抓取网站更新内容。
三、反爬&反反爬
- 反爬机制: 门户网站防止被爬虫程序爬取数据
- 反反爬策略: 破解反爬机制
- robots.txt协议(君子协议):
规定网页内容哪些数据可以被爬取(君子——无强制机制,靠自觉)
四、http协议&https协议
- http协议: 服务器与客户端进行数据交换的协议
- 常用请求头信息:
- User-Agent: 请求载体的身份标识
- Connection: 请求完毕后,断开连接||保持连接
- 常用响应头信息:
- Cntent-Type: 服务器响应回客户端的数据类型
- https协议: 安全的超文本传输协议(http协议)(s——security,进行了数据加密)
- 加密方式:
- 对称密钥加密: 同时传输密钥和密文
- 非对称密钥加密: 服务器传输密钥(可能会被中间拦截,然后进行恶意篡改),客户端返回相应密文
- 证书密钥加密: 非对称基础上,认证机构确认后给密钥签名(https采用)
(三种方式的详细介绍:路飞学城-学习文档——http&https协议)