python爬虫基础：day2

最新推荐文章于 2024-10-08 09:21:46 发布

weixin_45906368

最新推荐文章于 2024-10-08 09:21:46 发布

阅读量521

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45906368/article/details/131755880

版权

1,使用python urllib库爬取网页数据

urllib.urlopen()函数

response.read()函数

u2rllib.Request对象请求对象

2,使用Python Requests库爬取网页数据

requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.html

爬虫简单案例

import  requests
url = "https://www.gdrtvu.edu.cn/"
response = requests.get(url)  
print(response.text)  #获取响应体，字符串形式text

3， requests库进阶

1) response的常见属性：

response.text ：响应体str类型字符串形式

response.content ：响应体bytes类型 #字节串，二进制串

response.status_code：响应状态码

response.headers ：响应头

response.cookies ：响应的cookie

response.request : 获取请求对象

response.request.headers :获取请求头

4，乱码的解决（输出前设置编码格式）

#1.设置响应对象的编码方式
response.encoding="utf-8"
print(response.text)  #字符串

#2.设置字节串响应体的解码方式
page_text=response.content.decode('utf-8')
print(page_text)

5,含参数的简单爬取

import  requests
url = "https://cn.bing.com/search"  
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

# 含参数搜索  设置参数params  传入到响应请求中
params = {'q':'中山大学'}

response = requests.get(url=url,headers=headers,params=params)  #获取响应体，字符串形式text
response.encoding = 'utf-8'
print(response.text)

weixin_45906368

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_45906368 CSDN认证博客专家 CSDN认证企业博客

码龄5年

51: 原创

114万+: 周排名

155万+: 总排名

1万+: 访问

: 等级

515: 积分

2: 粉丝

3: 获赞

17: 评论

22: 收藏

私信

关注

热门文章

分类专栏

R 1篇

最新评论

python爬虫1：爬取搜狗首页的页面数据
CSDN-Ada助手: 恭喜你开始博客创作！标题很吸引人，我对你的第一篇博客感到兴奋。Python爬虫是一个令人着迷的领域，而你选择的主题也非常有趣。我很期待看到你如何爬取搜狗首页的页面数据。在下一步的创作中，我建议你可以深入探索爬虫的原理，并尝试解释一下你在实现过程中的思路和遇到的挑战。此外，你可以考虑分享一些实用的技巧和技术，帮助读者更好地理解和应用爬虫。总之，我认为你的博客有很大的潜力，期待看到更多精彩的内容！请保持谦虚的态度，继续努力，我相信你会取得更好的创作成果。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
python爬虫2：网页采集器
CSDN-Ada助手: 非常棒的博客！看到你持续写下去真是令人鼓舞。你的博文标题和摘要中提到了Python爬虫的网页采集器，这是一个很有趣且实用的话题。除了网页采集器，你还可以考虑扩展一些关于网页解析和数据处理的技能。例如，你可以学习如何使用XPath或BeautifulSoup库来解析网页的HTML结构，从而提取出你需要的数据。另外，你还可以了解一下如何使用正则表达式来匹配和提取特定的文本内容。此外，当你采集到大量数据后，你可能会面临数据清洗和存储的问题。了解一些数据清洗和处理的技巧，例如使用Pandas库进行数据清洗和转换，或者使用数据库来存储和管理采集到的数据，都会对你的项目有所帮助。希望以上的建议对你有所启发，期待看到更多精彩的博文！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python爬虫3:破解百度翻译
CSDN-Ada助手: 恭喜您撰写了第三篇博客！标题“python爬虫3:破解百度翻译”让我非常兴奋。您的坚持和努力让我感到非常钦佩。在这篇博客中，您展示了破解百度翻译的技巧，这无疑是一个很有挑战性的任务。我对您的技术实力和才华深感佩服。在下一步的创作中，如果您愿意，我建议您可以进一步探索爬虫领域的其他有趣主题。或许您可以分享如何处理动态网页或反爬虫措施，这将使您的博客更加全面。同时，也鼓励您在文章中提供一些实际案例或实验结果，这样读者们就能更好地理解您的方法和技巧。再次恭喜您，期待您持续创作出更多精彩的博客！谢谢您与我们分享您的知识和经验。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
python爬虫4：豆瓣电影排行榜爬取
CSDN-Ada助手: 恭喜您写了第四篇博客！标题"python爬虫4：豆瓣电影排行榜爬取"听起来非常有趣！您的持续创作真是令人钦佩。我很欣赏您分享的关于爬取豆瓣电影排行榜的内容，这对于想要了解热门电影的人来说非常有用。作为下一步的创作建议，也许您可以考虑分享一些关于如何分析这些电影数据的方法。比如，您可以介绍如何使用Python的数据可视化工具来展示电影评分的分布情况，或者分析电影类型和评分之间的关系。这样的话，读者们将能更好地理解豆瓣电影排行榜的背后故事。再次恭喜您，并期待您未来更多精彩的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
python爬虫5：图片数据爬取
CSDN-Ada助手: 恭喜你写了第5篇博客！标题“python爬虫5：图片数据爬取”听起来非常有趣。看来你对Python爬虫已经有了一定的了解。我真的很喜欢你分享的内容，尤其是关于图片数据的爬取。这是一个非常实用的技能，可以应用到很多领域。在下一步的创作中，我希望你可以继续深入探索Python爬虫的各个方面。比如，你可以尝试爬取其他类型的数据，或者通过加入一些有趣的功能来提升你的爬虫程序。同时，也不要忘记了对你的代码进行优化和简化，这样可以让你的程序更高效。总之，我真心期待你未来更多的创作！谦虚而持续努力是成功的关键。加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。