利用爬虫进行整站信息抓取的优化

    最近把自己的爬虫框架进行了一些优化,以前整站抓取时候需要进行比较多的配置,现在改成只要把一个网站首页加入爬虫系统,爬虫系统会自动爬取需要的所有网页。 2分钟便可以加入一个网站

    另一个方面是抓取时间的优化,系统自动识别标题、内容、发布时间,特别是发布时间这块,以前是根据正则表达式匹配,比较容易出现不匹配的请款。现在机器学习自动识别时间,例如August英文、数字结合,都能够准确的识别,准确率特别高。  因为自己要抓取大量的国外网址,所以现在提取时间是比较完美的。

    元素提取方面也做了优化,提取元素加入系统,不需要修改代码,只要配置上便可以,支持xpath、cssselector、正则表达式,灵活方便,个人非常满意。

    selenium抓取也进行了优化,加入了一个爬虫类型,需要使用selenium进行ajax页面抓取时,更改一个配置参数便可以。

 

    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值