![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
urllib
周攀panda
这个作者很懒,什么都没留下…
展开
-
requests库爬取(post请求)拉勾网,并存入json文件
requests爬取拉钩网 首先还是老样子,打开拉勾网的网址,先进行一波分析 查看网页源代码搜索,第一个职位名称大数据开发工程师,发现不在源码里 这时我们就要利用开发者工具在找接口 找到接口发现数据都存在该接口里,且发现请求为post请求,请求所需要data也找到了,大概可以猜测pn就是这个职位的页数,所以我们的翻页操作就可以靠改变pn的值来实现,kd就是我们搜索的职位,我们可以通过改变它的值从而达到搜索其他职位信息的操作。 明确目标之后我们就可以来写代码了: 完整代码如下: import requ原创 2020-11-26 15:10:22 · 880 阅读 · 0 评论 -
urllib库爬取拍信创意图片(post请求)json传参
urllib库爬取拍信创意图片 解决urllib库遇到Request payload传参问题 分析网页: 找到接口: 发现图片数据都是以json格式存储在这个接口里 我们在来看接口所需要的data,这里的searchQuery参数就是我们搜索的值,所以我们可以改变它,从而爬取更多类型的图片,page就是页码,size就是每页的图片数。 明确目标后,我们就可以开始写代码了 代码如下: #url就是接口上的url url='https://api2.paixin.com/medias/1/search?p原创 2020-11-23 16:52:47 · 869 阅读 · 0 评论 -
urllib库爬取51job(get请求)
urllib库爬取51job 首先打开51job网页,分析网页结构,发现自己想要的字段全部在网页源码里,以json格式存储,且编码为‘gbk’ 所以我们要通过正则表达式把它提取出来 代码如下: url='https://search.51job.com/list/190200%252c040000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,{}.html?lang=c&postchannel=0000&原创 2020-11-20 11:36:38 · 359 阅读 · 3 评论