【爬取百度产品网页】-将整个html保存下来

一、页面分析

目标网址:https://www.baidu.com/more/
爬取内容:将目标网址,整个html页面保存下来
实现步骤:
		导入requess模块
		发送请求,获取响应(包含了url指向)
		获取响应内容
		将响应保存到本地

整个目标网址页面所呈现的样式
在这里插入图片描述

二、代码

# 1、导包
import requests

# 2、发送请求,获取响应
response = requests.get(url='https://www.baidu.com/more/')
# 3、获取响应内容
print(response)
# 查看状态码
print(response.status_code)
# 查看响应头
print(response.headers)
# 重点:响应正文。
# 问题:文本数据有哪两种格式?
# 字符串响应正文:
# print(response.text)
# bytes二进制的响应正文:
print(response.content)
# 解决乱码问题:
# 第一种方法:
response_str = response.content.decode(encoding='utf-8')
# 第二种方法:
# response.text是通过response.ecoding这个属性设置的值来进行编程字符串。
# response.ecoding是通过resquests模块自动识别的。(基本识别都对的。)
print(response.encoding)
response.encoding = 'utf-8'
# 4、将响应内容保存到本地。
with open('index.html', 'w', encoding='utf-8') as fp:
    fp.write(response.text)

三、请求结果分析

验证结果的时候,整个页面,输入与目标网址呈现的内容的关键词即可

请求结果:
在这里插入图片描述

与目标网址源代码一致:
在这里插入图片描述

打开页面源代码:
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值