100%教会爬取全国保险业务员微信号码和拉勾网招聘数据

下方两幅图是最近爬取某保险网站和拉勾的招聘数据,大家随意感受一下

Python爬虫人工智能教程: www.python88.cn

编程资源网:www.python66.cn

截图部分保险业务员微信二维码

 

截图部分拉勾网爬取信息

 

本文主要讲爬取某保险网站所有卖保险的人的微信号,个人网站,所在地区、所属保险公司等信息,代码已上传到QQ群(627714866

 

开发环境:

乌班图、pycharm、mysql、redis、mongodb

爬虫技术:

requests、redis加密对数据去重、xpath、os模块、保存csv、mysql、面向对象写法

 

废话不多说,直接上代码

1、pymongo、pymysql、redis, hashlib用于对redis字段加密

 

2、创建一个类,并初始化数据(网站是post请求,需要带data)

headers、post请求数据、初始化csv文件、创建数据库连接对象(具体技术不明白的请查阅相关资料)

 

3、最大重复请求3次,增加程序健壮性

 

4、获取数据列表

(具体提取方式请根据post请求URL查看前端代码)

 

 

5、返回con_list列表、下一页URL和data数据

(注意:所有URL都一样,不一样的是传的data数据,主要还是构造data数据)

 

6、获取展业证号

因为展业证号对应的详情页有多种页面结构,所以需要根据页面中特有的信息做一些判断,选择合适的提取方式提取

 

7、构造增量式爬虫

利用hashlib对提取的名字信息生成哈希加密指纹,并利用redis的集合数据类型,保存加密字段,如果该加密字段能sadd保存到redis,则返回值是1,如果不能sadd保存,则返回值是0(作用:实现根据姓名字段判断到数据库是执行更新操作还是增加操作,也即增量含义)

 

8、保存mysql

根据res返回值,是1还是0,对应执行增加insert操作和更新update操作

同时分表存储,方式有点lowb,判断字段而已,

 

9、保存mongodb

 

 

10、保存csv和构造保存二维码图片命名格式

 

 

11、启动程序

遍历两个条件,公司名称和信用等级,只做示意,公司取两个,信息用等级取2个,next_url为初始URL

 

 

后期爬取拉勾数据代码也已经实现,会继续更新

 

本文代码和一些python教程已经上传到QQ群(627714866),有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途

 

 

 

python爬虫人工智能大数据公众号

 

 

本公众号长期提供各种免费视频学习资源,欢迎与作者相互探讨学习

                        

 

公众号回复“资料”获取500GB相关视频教程,部分教程分类和截图如下:

python、django 、flask、数据分析、爬虫、运维、大数据、量化金融、机器学习、深度学习、自然语言处理、人工智能、电子书

0、python入门教程

 

1、Django教学网站项目实战视频,带xadmin后台和源码:

 

2、Flask项目实战视频和源码:

 

3、爬虫项目实战视频和源码:

4、数据分析项目实战和源码:

 

5、全部资料

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值