Python3 selenium 网页table数据抓爬

项目介绍

本项目是对一些复杂的报表解析爬取列表数据,以国家网为例(大家最好换一个网站),会自动根据数据库配置text(数据库为字典方式),进行
点击树形结构,然后input下拉框内时间,并选择省(时间和省由配置文件配置),但下拉列表的xpath没有数据库化,现阶段是写死在代码中
项目开始由递归进行判定是否为最后一层,字典表可配置N层,看你网站的复杂度

加入QQ群:943841699

源码地址:https://gitee.com/xywdy/table_creeper.git

技术

Python3.6
selenium(如果对selenium不了解,可参考博客
https://blog.csdn.net/wudaoshihun/article/details/82982596
https://blog.csdn.net/wudaoshihun/article/details/82990670
https://blog.csdn.net/wudaoshihun/article/details/82990920
https://blog.csdn.net/wudaoshihun/article/details/82947091)

本项目采用谷歌浏览器内核,需安装谷歌及匹配的driver
参考:https://blog.csdn.net/wudaoshihun/article/details/82353056
并且linux无界面,需要配置无界面方式进行爬取
参考:https://blog.csdn.net/wudaoshihun/article/details/82948013

使用说明

1. 把resource文件下SQL拷贝并导入数据库
2. 配置config.py
3. 根据技术目录指引安装完毕
4. 现阶段只有一张表,class_type为类型,若不同类型网站,则class_type不同,
group_code为分组编码,可根据00000000,每个位代表不同含义,与自己库中的分类对应。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值