Python3.5.2+pymssql+selenium+帆软Finereport实现爬虫爬取泛微OA流程节点操作者组

由于集团快速扩张,为分子公司制订的流程越来越多。现在所有流程共计约700个(包含历史版本、模板),正在使用的300余个,只有一人负责维护流程,平常还要兼管其他事务,管理效率遇到瓶颈。

需求:Python3.5.2+pymssql+selenium实现爬取流程节点操作者内容,使用帆软Finereport以报表的形式展示,这也是刚入门Python写的第一个爬虫脚本。

实现的功能:

1、可选只爬取启用中的流程,或爬取全部流程;

2、自动判断是否有新增流程,如果有,将新增的流程ID插入数据库;

3、提取符合抓取条件的流程ID,使用selenium逐个抓取,期间使用到xpth,建议使用新版本谷歌浏览器,可以一键复制元素xpath!

不使用Request的原因是一直请求不到具体页面,添加header、cookie都无法实现。

最后使用pyinstaller打包,win10x64正常运行,WinServer2012x64正常运行。

几个注意点:

1、若打包后运行报错No module named xx,报缺少哪个模块就import哪个模块,使用pycharm有时会自动帮你导入一些常用包,但是打包时不会自动引入,必须手动引入。

2、平均爬取一个页面2-3秒,更新300个流程需要不到20分钟。

效果展示:



  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值