01爬虫前沿知识

文章介绍了URL的作用,HTTP和HTTPS协议的区别,以及爬虫的基本流程,包括如何使用requests模块发送GET和POST请求,处理超时问题,以及理解不同状态码的含义。还提到了静态加载和动态加载网页数据的区别。
摘要由CSDN通过智能技术生成

url地址分析

百度/豆瓣爬取网站数据,确定url,你爬取的数据基本就确定了,就可以进行后续操作了

1.http,https

都是属于协议的一种

http——超文本传输协议,就是浏览器和服务器之间数据交互遵守的协议

https是由http与ssl组成,ssl是一个安全证书。同时具有服务器验证和数据传输加密的功能

域名相当于IP地址的别名,方便记忆

爬虫流程

1导入模块

requests:请求模块,第三方库

安装第三方库的方法:

1.终端安装:

win+r——cmd——回车

2.python中安装

python下方终端

  1. 爆红——time out(超时)

换源安装:pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成之后——successful

2.指定url

当前网页显示的数据都是当前url的

1.在网页源码当中,你想要的数据能够搜索的,就是静态加载 例如:搜狗搜索

2.在网页代码中,你想要的数据搜索不到,就是动态加载 例如:网易云喜欢程度歌单每日更新

3.确定url:当前的url,对应的就是源码的内容,如果你源码当时有你想要的数据,url就是你当前的url

源代码查看方法:右击查看源码——ctrl+F进行搜索

3.发送请求,获取响应

发请求:就是浏览器向对应的网站服务器发消息,告诉他,我发送了某个内容

获取响应:服务器接收到浏览器的要求,将响应的内容返回给浏览器

发送请求的两种方法

1.get:一般是获取数据,参数会显示在地址栏上 例如:百度搜索

2.post:一般是提交数据,参数不会显示到地址栏上 例如:输入密码,在地址栏上不显示,但是会验证

案例演示

状态码:

200:请求成功

301:永久重定向

302:临时重定向

404:请求失败(服务器无法根据客户端的请求找到资源(网页))

505:服务器内部请求

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值