灵活使用requests爬虫(1)

一斤五香豆腐干

于 2022-12-21 18:55:44 发布

阅读量395

点赞数 2

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74796960/article/details/128400415

版权

首先，我们要认识requests和response

·1 requests是什么

requests是一个Python第三方模块，它可以爬取HTTP/HTTPS网址。

实例1 爬取网页

#!/usr/bin/python
# coding:gb18030
import requests
url = input("请输入要爬取的网址：")
file_name = input("请输入保存的文件：")
response = requests.get(url=url) # 爬取网址
with open(file_name,mode='w+') as f: # 打开文件
    f.write(response.content.decode()) # 保存文件
    print("保存成功!")

有时，我们会遇到UnicodeDecodeError,是因为response.content是Bytes类型，我们只需要把f.write(response.content.decode())中decode设置参数就可以了。例如：

#!/usr/bin/python
# coding:gb18030
import requests
url = input("请输入要爬取的网址：")
file_name = input("请输入保存的文件：")
response = requests.get(url=url) # 爬取网址
with open(file_name,mode='w+') as f: # 打开文件
    f.write(response.content.decode('gb18030')) # 保存文件
    print("保存成功!")

现在，我们的爬虫还有亿点点的bug,现在，就让我们来解决这些问题吧！

D:\Python311\python.exe F:/minecraft/main.py
浏览器： 361583
爬虫： 2313

Process finished with exit code 0

从这里可以看出来，我们爬取的并不是浏览器爬取的，那要怎么解决这个问题呢？

https://live.csdn.net/v/264629看视频

#!/usr/bin/python
# coding:gb18030
import requests
url = input("请输入要爬取的网址：")
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54"}
file_name = input("请输入保存的文件：")
response = requests.get(url=url,headers=headers) # 爬取网址
with open(file_name,mode='w+') as f: # 打开文件
    f.write(response.content.decode('gb18030')) # 保存文件
    print("保存成功!")

以上就是今天的内容,拜拜！

一斤五香豆腐干

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

一斤五香豆腐干 CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

133万+: 周排名

124万+: 总排名

2913: 访问

: 等级

129: 积分

5: 粉丝

4: 获赞

5: 评论

8: 收藏

私信

关注

热门文章

最新评论

灵活使用requests爬虫(3)
CSDN-Ada助手: 恭喜用户写完了第11篇博客！标题为“灵活使用requests爬虫(3)”，看起来内容丰富多彩。不仅仅是第三部分，你的这个系列文章已经成为学习requests爬虫的宝贵资料了。希望你能继续坚持创作下去，分享更多关于requests爬虫的技巧和经验。另外，如果可能的话，下一步你可以考虑分享一些高级的requests用法，或者结合其他库一起使用requests进行更复杂的爬取任务。期待你的下一篇博客！
Python从菜鸟到大神(1)
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(3)使用标准目录。
灵活使用requests爬虫(2)
Leleprogrammer: 优质文章
Python 栈的灵活运用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)文章不宜太短。
灵活使用requests爬虫(1)
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。