读书笔记：《Python3网络爬虫开发实战》——第2章：爬虫基础

最新推荐文章于 2024-07-24 02:41:07 发布

有趣的灵魂又双叒叕来了~

最新推荐文章于 2024-07-24 02:41:07 发布

阅读量1k

点赞数

分类专栏：读书笔记 Python3网络爬虫开发实战文章标签：读书笔记 Python3网络爬虫开发实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiongbatian_2019/article/details/89158543

版权

该章节详细介绍了HTTP基本原理，包括URI和URL的区别，超文本概念，以及HTTP和HTTPS的区别。还探讨了HTTP请求过程，请求和响应的组成部分，如请求方法、响应状态码、请求头和响应体。此外，概述了网页爬虫的工作流程，包括获取网页、提取信息、保存数据的自动化步骤。虽然未详细介绍会话、cookies和代理，但它们是爬虫实现中的重要概念。

摘要由CSDN通过智能技术生成

第2章爬虫基础

2.1 HTTP基本原理

2.1.1 URI和URL

URI： Uniform Resource Identifier 统一资源标识符
URL：Universal Resource Locator 统一资源定位符

2.1.2 超文本

hypertext

2.1.3 http和https

https：Hyper Text Transfer Protocol over Secure Socket Layer
https是以安全为目标的HTTP通道，简单地讲师HTTP的安全版，即HTTP下加入SSL层，简称为HTTPS

2.1.4 HTTP请求过程

2.1.5 请求

请求方法：get和post

get请求中的参数包含在URL中，数据可以在URL中看到；而post请求的URL不会包含这些数据，数据通过表单形式传输的，会包含在请求体中

get请求提交的数据最多只有1024字节，post无限制

请求的网址
即URL
请求头
请求体

2.1.6 响应

相应状态码
响应头
响应体

最低0.47元/天解锁文章

有趣的灵魂又双叒叕来了~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。