1.爬虫基础——网页及网络请求

一、了解网页由html语言编写

在网页中右键单击检查会跳出该网页的源代码,点击源代码部分左上角的箭头,再点击网页中的任何一个模块,代码就会跳转到对应的部分啦!
在这里插入图片描述
在网页中右键单击检查会跳出该网页的源代码,我们不需要完全掌握html语言,只需要知道一下几点:

1.html语言由一个个标签<>组成

如下图
在这里插入图片描述
在这里插入图片描述

2.这些标签分为闭合标签和自闭合标签

a.闭合标签

对于<>标签,后面会有一个</>标签与之对应,如:
在这里插入图片描述
这里的<head 》与</head》对应
在这里插入图片描述
最开头的<html》和<body》也与代码对末尾部分的</html和</body对应,像这种闭合标签有很多,在代码中可以找到很多例子。

b.自闭合标签

现在我们以百度网页为例,点击源代码左上角的箭头,再点击百度的搜索框,代码会跳转到对应的这一行
在这里插入图片描述
这里的<input 就是一个自闭合标签,没有相应的</>与之对应. 后面的id、type等黄色字体就是这个标签涉及的属性。

二、了解网络请求

1.什么是网络请求

当我们在浏览器中输www.baidu.com点击确定弹出网页的这个过程中发生了什么?

首先,当我们输入www.baidu.com的时候,浏览器是看不懂的,于是它把域名传输给我们的运营商(移动、联通、电信),由运营商的DNS域名解析器获得百度这个网站的ip,并告诉我们这个IP,我们再用这个ip去访问百度的服务器(发送请求),最后百度的服务器就把百度的html网页发给我们,于是我们就可以用百度啦!(http请求)
这个过程可以形象的用下图表示
在这里插入图片描述

2.网络请求的种类

网络请求主要有八种,这里只介绍两种最常用的GET和POST:

get请求:

发送请求从服务器上获取资源,不会对服务器资源产生任何影响的时候使用GET请求,如访问页面、刷新等
此时右键检查,弹出源代码后,点击最上面的Network,F5刷新一下
在这里插入图片描述
可以看到其中的request method显示为get。

post请求:

向服务器发送数据、上传数据等让服务器处理,会对服务器资源产生影响的时候用post请求。
如登录账户时,需要让服务器验证账户信息是否正确;上传数据是时,服务器的资源会改变等等,此时request method显示为post
在这里插入图片描述

3.网络请求中的参数

a.User-Agent

服务器通过这个参数知道请求是从哪个浏览器(google、火狐等)发送出来的
在这里插入图片描述
network拉到最下面,就可以看到user-agent的内容,这里是用谷歌浏览器,不同的浏览器显示不同的参数。

b.Referer

表明这个网页是从哪个网站跳转过来的
在这里插入图片描述

c.Cookie

HTTP协议是无状态的,也就是同一个人在浏览器上发送了两次请求,但是服务器不知道这两个请求是否来自同一个人。因此需要用cookie来做标识。(如在登陆后,网页需要知道这些请求是同一个用户发出的)
在这里插入图片描述

了解这些参数有什么用呢?在后续爬虫的时候就知道了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值