Java动态爬虫自动化测试系统(selenium+web Magic)

本文介绍了使用Selenium和Web Magic构建的Java动态爬虫自动化测试系统,能够进行自动化测试、模拟用户操作,以及爬取动态加载数据。通过示例展示了如何应对网站反爬策略,以及分享了Selenium和Web Magic的关键特性。提供1688网商品数据爬取的实战案例,并给出了GitHub代码链接。
摘要由CSDN通过智能技术生成
这套系统能做什么:
1:可支持自动化测试,简单的黑盒测试和功能测试,简单实现模拟真人注册,登陆,点击按钮,拖拽页面,滚动下滑和获取返回值比较,模拟真人操作流程,大大简化了人工QA成本。
2:跟以往静态爬虫不同,以往的curl获取资源再解析和Xsoup/Jsoup等爬虫都只能够爬取网页上已展示出来的静态页面,动态加载的数据都无法获取。这套系统能爬取任意一种触发条件后出现的动态数据(包括滚动,懒加载,点击,自动输入设置好的参数,鼠标悬浮)。
如果当爬虫用,什么网站可以爬取?被抓取的网站有什么防范措施?
目前测试成功的有各种新闻页面(某浪新闻,搜某新闻),各种论坛和小说贴吧漫画之家,各种小说网站(红某某香,天某涯)等等,在测试时候多次爬取某宝商品二三级详情页的时候会被检测出机器人操作,随即要求你登陆某宝账号,后来用一个小号账号密码作为输入参数给机器人拿去输入登陆,但是有图片拼图识别认证,要拖动拼图准确拼入不同的位置,这一部分要破解要下成本做图片识别,所以没有继续下去,只草率抓取了一些一级页面图片和产品信息。
经过多次测试由此可见,要防范爬虫其实还是比较好入手的,加一些检测,对异常用户添加设备号和IP的灰名单,放拦截器去拦截那一部分用户强制登陆或者强制验证(拖拽拼图,点点乐,计算题等等,这些前端都已经很多了),验证成功后再放开拦截。

说完了它能干什么,那么下面开始介绍下使用到的技术

selenium:
它是用JavaScript写出来的一套自动化测试工具,因为是用JavaScript,所以它能支持大部分浏览器(IE6以上,Firefox火狐,Google Chrome谷歌,Safari等等),装了相对应版本的浏览器驱动后,它能自动调起浏览器自己进行操作,爬虫中它就是冲锋士兵去触发全部的JavaScript页面渲染,数据都出来后,爬虫再进场收割数据返回。因为浏览器各个版本都有对应各个版本驱动,所以一定要准确安装,不然启动不了。
IE的驱动下载地址:http://selenium-r
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值