01爬虫前沿知识

最新推荐文章于 2024-10-09 23:30:06 发布

Iruri411

最新推荐文章于 2024-10-09 23:30:06 发布

阅读量286

点赞数 3

文章标签：爬虫 python https Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_64832161/article/details/129672434

版权

文章介绍了URL的作用，HTTP和HTTPS协议的区别，以及爬虫的基本流程，包括如何使用requests模块发送GET和POST请求，处理超时问题，以及理解不同状态码的含义。还提到了静态加载和动态加载网页数据的区别。

摘要由CSDN通过智能技术生成

url地址分析

百度/豆瓣爬取网站数据，确定url，你爬取的数据基本就确定了，就可以进行后续操作了

1.http，https

都是属于协议的一种

http——超文本传输协议，就是浏览器和服务器之间数据交互遵守的协议

https是由http与ssl组成，ssl是一个安全证书。同时具有服务器验证和数据传输加密的功能

域名相当于IP地址的别名，方便记忆

爬虫流程

1导入模块

requests:请求模块，第三方库

安装第三方库的方法：

1.终端安装：

win+r——cmd——回车

2.python中安装

python下方终端

爆红——time out(超时）

换源安装：pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成之后——successful

2.指定url

当前网页显示的数据都是当前url的

1.在网页源码当中，你想要的数据能够搜索的到，就是静态加载例如：搜狗搜索

2.在网页代码中，你想要的数据搜索不到，就是动态加载例如：网易云喜欢程度歌单每日更新

3.确定url:当前的url,对应的就是源码的内容，如果你源码当时有你想要的数据，url就是你当前的url

源代码查看方法：右击查看源码——ctrl+F进行搜索

3.发送请求，获取响应

发请求：就是浏览器向对应的网站服务器发消息，告诉他，我发送了某个内容

获取响应：服务器接收到浏览器的要求，将响应的内容返回给浏览器

发送请求的两种方法

1.get:一般是获取数据，参数会显示在地址栏上例如：百度搜索

2.post：一般是提交数据，参数不会显示到地址栏上例如：输入密码，在地址栏上不显示，但是会验证

案例演示

状态码：

200：请求成功

301：永久重定向

302：临时重定向

404：请求失败（服务器无法根据客户端的请求找到资源（网页））

505：服务器内部请求

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。