爬虫学习笔记(第一章)爬虫简介

13 篇文章 4 订阅


前言

     2021.07.14开始系统地学习爬虫:2020年Python爬虫全套课程(学完可做项目)


第一章

一、爬虫简介

  • 概念:模拟&抓取
  • 价值:实际应用&就业
  • 合法性:
    法律上不禁止
    具有违法风险 (干扰网络正常运营;爬取法律保护的数据)

    应对:
    优化代码;审查爬取内容

二、爬虫分类

  • 通用爬虫: 抓取一整张页面内容;
  • 聚焦爬虫: 抓取页面的局部内容;
  • 增量式爬虫: 抓取网站更新内容。

三、反爬&反反爬

  • 反爬机制: 门户网站防止被爬虫程序爬取数据
  • 反反爬策略: 破解反爬机制
  • robots.txt协议(君子协议):
    规定网页内容哪些数据可以被爬取(君子——无强制机制,靠自觉)

四、http协议&https协议

  • http协议: 服务器与客户端进行数据交换的协议
  • 常用请求头信息:
    • User-Agent: 请求载体的身份标识
    • Connection: 请求完毕后,断开连接||保持连接
  • 常用响应头信息:
    • Cntent-Type: 服务器响应回客户端的数据类型
  • https协议: 安全的超文本传输协议(http协议)(s——security,进行了数据加密)
  • 加密方式:
    • 对称密钥加密: 同时传输密钥和密文
    • 非对称密钥加密: 服务器传输密钥(可能会被中间拦截,然后进行恶意篡改),客户端返回相应密文
    • 证书密钥加密: 非对称基础上,认证机构确认后给密钥签名(https采用)
      (三种方式的详细介绍:路飞学城-学习文档——http&https协议
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

竹清兰香

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值