爬虫基本知识第二弹(纯Q&A版)

目录

Q:所爬取的网址构成是什么样子的?

Q:动态数据与静态数据如何区分?有何区别?

Q:如何获取动态数据?(即抓包介绍)

Q:为什么需要进行伪装?怎样进行伪装?

Q:请求方式是什么?有哪些?


Q:所爬取的网址构成是什么样子的?

A:所谓的网址,网址的高端叫法叫做‘统一资源定位符’,在互联网里面如果获取到数据都是通过网址来定位到的(就跟你找辣条借钱首先需要知道辣条目前所在的地址)那么每天都在用的网址到底是有什么特殊的含义呢?
网址有包含:协议部分、域名部分、文件名部分、参数部分
1、协议比较常见的就是http以及hettps
2、域名部分也就是我们说的服务器地址
3、文件名部分就是我们所需要的数据所在的地方
4、参数部分根据我们所查询的条件筛选数据
总结:拿到网址是获取到互联网数据的前提。

Q:动态数据与静态数据如何区分?有何区别?

A:能在搜索页面看到的网址是静态网址,那我们有些网址的数据是在不断更新的(类似新闻网站),那这种不断加载的数据就叫做动态数据。

区分办法:

1、直接观察页面,静态数据加载的会更快一些,动态数据加载相对慢一些;
2、在浏览器页面鼠标右击点击查看网页源代码,搜索你需要的数据如果有就是静态数据,如果没有就是动态数据。

补充:通过爬虫获取的数据分为结构化数据和非结构化数据(结构化数据:json、xml)、(非结构数据:html),
针对我们获取的数据的不同提取数据的方式也不一样,要是我们获取的是json数据我们可以直接将其转换成字典类型进行获取数据,要是我们获取的是html的数据我们可以通过xpath、bs4、pyquery、正则等方式进行提取。

Q:如何获取动态数据?(即抓包介绍)

A:抓包:在互联网里所获取的数据都是通过网络,抓包就是从中拦截这些网络传递的数据,。

举个例子我们现在外出上班都需要租房,按照正常的想法是租客找房东获取到房源信息,这个是理想状态,但是我们现在想租房好的房源信息都是在中介的手里,就会出现我想租房需要先找到中介,然后中介找房东获取优质房源,房东返回房源信息给中介,中介在给我,那么抓包也是这个意思,我可以从中拦截所有的数据信息

那这个抓包我们应该要怎么使用呢,每个浏览器都会自带抓包工具,在浏览器页面鼠标右击点击检查

元素:网页加载之后的代码信息
控制台:可以用来调试网页代码
源代码:网页开发的源代码信息
网络:通过网络加载的全部数据
想要的动态数据就在网络的XHR选项里,可以通过这种方式获取到我们想要的网络数据。


Q:为什么需要进行伪装?怎样进行伪装?

A:伪装是因为爬虫在请求网址时有些网站也是不想给我们数据,可以把自己进行伪装,伪装成正常访问就可以获得数据,爬虫的核心就在于伪装成浏览器发送网络请求。

而伪装就是伪装成客户端(浏览器,APP)。
那我们怎样伪装呢?我们在抓包的时候在标头里会有请求标头会看到入下的数据,那我们来重点认识一些关键的信息:
Accept:浏览器接受的数据
Accept-Encoding:接受的格式
Accept-Language:接受的语言
Connection:链接的类型
Cookie:实现状态保存,可以怎么去理解他呢,可以用来记录你的用户信息,就好比你之前找我借钱,我会给你写个借条,下次你过来借钱拿着这个借条我就知道是你
Host:链接的主机
Referer:来源、防盗链接, 类似想我们现在的行程码你是从来个地方来的
User-Agent:用户代理,浏览器的身份标识,可以理解为你的身份证
那么这些东西都是我们在发送请求需要带上证明自己身份的东西

image.png
请求头加密
请求头的东西并不是一成不变的有时候会有一些特殊的字段,那我们需要加什么请求头也是根据你的网址来的,那我们看到的请求字段可能是加密的如下图,那么我们要是遇见这种加密的我们又该如何进行参数的传递呢?就需要进行js逆向(js逆向就不在这里开展讲解)。


Q:请求方式是什么?有哪些?

A:请求方式是用来区分网址的请求规律,常见的有get和post,get一般是获取网页的数据,post需要提交数据给服务器(比方说你登录的时候需要把账户和密码进行传递)。

参考文献:

[1]Python爬虫篇:爬虫笔记合集_五包辣条!的博客-CSDN博客

[2]Python实用技术——爬虫(一):爬虫基础_喜欢吃豆的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

封印师请假去地球钓鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值