【爬取百度产品网页】-将整个html保存下来

最新推荐文章于 2023-07-16 03:29:09 发布

稳稳C9

最新推荐文章于 2023-07-16 03:29:09 发布

阅读量1.9k

点赞数 2

分类专栏： Python爬虫文章标签： python html ajax 数据分析

本文链接：https://blog.csdn.net/weixin_44238683/article/details/107425790

版权

Python爬虫专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

一、页面分析
二、代码
三、请求结果分析

一、页面分析

目标网址：https://www.baidu.com/more/
爬取内容：将目标网址，整个html页面保存下来
实现步骤：
		导入requess模块
		发送请求，获取响应（包含了url指向）
		获取响应内容
		将响应保存到本地

整个目标网址页面所呈现的样式
在这里插入图片描述

二、代码

# 1、导包
import requests

# 2、发送请求，获取响应
response = requests.get(url='https://www.baidu.com/more/')
# 3、获取响应内容
print(response)
# 查看状态码
print(response.status_code)
# 查看响应头
print(response.headers)
# 重点：响应正文。
# 问题：文本数据有哪两种格式？
# 字符串响应正文：
# print(response.text)
# bytes二进制的响应正文：
print(response.content)
# 解决乱码问题：
# 第一种方法：
response_str = response.content.decode(encoding='utf-8')
# 第二种方法：
# response.text是通过response.ecoding这个属性设置的值来进行编程字符串。
# response.ecoding是通过resquests模块自动识别的。（基本识别都对的。）
print(response.encoding)
response.encoding = 'utf-8'
# 4、将响应内容保存到本地。
with open('index.html', 'w', encoding='utf-8') as fp:
    fp.write(response.text)

三、请求结果分析

验证结果的时候，整个页面，输入与目标网址呈现的内容的关键词即可

请求结果：
在这里插入图片描述

与目标网址源代码一致：
在这里插入图片描述

打开页面源代码：
在这里插入图片描述

稳稳C9

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【爬取百度产品网页】-将整个html保存下来

文章目录一、页面分析二、代码三、请求结果分析一、页面分析目标网址：https://www.baidu.com/more/爬取内容：将目标网址，整个html页面保存下来实现步骤：导入requess模块发送请求，获取响应（包含了url指向）获取响应内容将响应保存到本地整个目标网址页面所呈现的样式二、代码# 1、导包import requests# 2、发送请求，获取响应response = requests.get(url='https://www.baidu.
复制链接

扫一扫

专栏目录