爬虫1：get请求的翻页及思考

最新推荐文章于 2024-05-02 22:05:31 发布

路之遥_其漫漫

最新推荐文章于 2024-05-02 22:05:31 发布

阅读量1.7k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/yyxyong/article/details/62893983

版权

本文介绍了Python爬虫中GET请求进行网页翻页的方法，通过分离变化和不变的URL部分，构建请求参数字典并编码，结合系统库获取网页内容。在实践中遇到的问题包括字典使用不当导致的始终爬取第一页和对xpath()函数返回值类型的误解。解决方案是正确使用字典确保变量更新，理解xpath()返回的是列表并用下标获取元素，以及通过字符串拼接构造完整的工作详情链接。

摘要由CSDN通过智能技术生成

刚开始接触爬虫，理解还不透彻，说一些初始阶段的想法{1.因为get请求的方式（请求体无数据，不能通过Request.add_data()函数来添加数据，实现对网址翻页；需要直接对网址进行操作来实现翻页功能）2.post请求方式存在数据请求数据（可以通过Request.add_data()函数来添加数据，实现对网址的翻页）}

下面是标准的老师总结的两者差别

{   
　　1. get是从服务器上获取数据，post是向服务器传送数据。

　　2. GET请求参数显示，都显示在浏览器网址上,POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送

　　3. 尽量避免使用Get方式提交表单，因为有可能会导致安全问题。比如说在登陆表单中用Get方式，用户输入的用户名和密码将在地址栏中暴露无遗。
}

#coding

最低0.47元/天解锁文章

路之遥_其漫漫

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录