爬虫笔记----爬虫基础

爬虫笔记1----爬虫基础

1.爬虫的特点介绍

1.知识点碎片化(面对不同的网站,每个网站都有每个网站的特点,根据不同网站采取不同的技术和手段)
2.学习难度在于要与网站的运维人员和维护人员进行搏斗,网站的网爬是不断升级。
3.学习特点:爬虫的阶段课程是以某网站爬虫的案例进行讲解,一个技术点就是一个案例。
4.后续发展:爬虫需要掌握的东西更要多,可能根据工作需要涉及更多从来没有学过的知识。(难度会持续增高)
5.法律层面,爬虫工作属于灰色地带,目前法律对于爬虫的相关评判还没有一个明确的制度。
6.好记性不如烂笔头,多找一些网站进行爬虫练习。

2.爬虫的概述

模拟浏览器,发送请求,获取响应
网络爬虫(网页蜘蛛)就是模拟客户端(主要是浏览器)发送网络请求,接受请求响应,一种按照一定规则,自动地抓取互联网信息的程序。
原则上,只要是客户端(浏览器)能做的事情,爬虫都能做。
爬虫也只能获取客户端(浏览器)所展示出来的内容
案例1
进入一个网页网站---->右击选定“检查”----->打开开发者工具的·natework---->刷新(进行重新抓包)
在这里插入图片描述

3.爬虫的作用

1.数据采集(机器学习舆情监控,数据分析·挖掘)
2.软件测试(虫师)
3.12306抢票
4.网络上的投票
5.网络安全(短息轰炸,web漏洞扫描)

4.爬虫的分类

在这里插入图片描述
在这里插入图片描述

5.爬虫的流程

在这里插入图片描述
流程图的原理
在这里插入图片描述

在这里插入图片描述

6.http与https的概念和区别

在这里插入图片描述

7.爬虫特别关心的请求头和响应头

请求头的格式
在这里插入图片描述

爬虫常见的请求头与响应头
在这里插入图片描述
在这里插入图片描述

8. 常见的响应状态码

所有的状态码都不可信,一切以是否从抓包得到的响应中获取到的数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码,不能作为判断标准

在这里插入图片描述

9.浏览器运行过程与爬虫过程的区别

在这里插入图片描述
数据可能在下面三种文件中,在下面三种进行查找:
骨骼文件: html静态文件
肌肉文件: js /ajax请求
皮肤文件: css/font/图片等
抓包过程
根据发送请求的流程分别在骨骼/肌肉/皮肤响应请求中查找数据

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据AI铭仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值