需求:
实现考勤机网页登陆,取得当天考勤记录,爬取数据,校验当天是否正常打卡
思路:
采用Selenium WebDriver,实现模拟登陆功能,模拟网页操作,出现数据后,获取页面数据并判断。
失败尝试1
刚开始考虑,已爬虫为解决思路,考察jsoup、htmlunit、WebCollector爬虫,后发现现有案例并不支持。
需求是登录系统,而非直接动态或静态页面(如微博),尝试后舍弃该思路。
失败尝试2
思路转变,不应定位爬虫,而应定位为模拟WEB登陆,引用autoit3进行编程,在登录、页面定位成功后,发现无法处理页面弹出问题,尝试多次后放弃。
失败尝试3
autoit3因未解决最后弹出页面问题,改用JAVA模拟登陆,采用selenium进行处理。
拦路虎1,jar包列表
下载地址:http://selenium-release.storage.googleapis.com/index.html
jar包:
selenium-java-2.42.2.jar;
selenium-java-2.42.2-srcs.jar;
辅助jar包:
apache-mime4j-0.6.jar
bsh-1.3.0.jar
cglib-nodep-2.1_3.jar
commons-codec-1.9.jar
commons-collections-3.2.1.jar
commons-exec-1.1.jar
commons-io-2.4.jar
commons-jxpath-1.3.jar
commons-lang3-3.2.1.jar
commons-logging-1.1.3.jar
cssparser-0.9.11.jar
guava-15.0.jar
hamcrest-core-1.3.jar
hamcrest-library-1.3.jar
htmlunit-2.14.jar
htmlunit-core-js-2.14.jar
httpclient-4.3.2.jar
httpcore-4.3.1.jar
httpmime-4.3.2.jar
ini4j-0.5.2.jar
jcommander-1.29.jar
jetty-websocket-8.1.8.jar
jna-3.4.0.jar
jna-platform-3.4.0.jar
json-20080701.jar
junit-dep-4.11.jar
lifan.txt
nekohtml-1.9.20.jar
netty-3.5.7.Final.jar
operadriver-1.5.jar
phantomjsdriver-1.1.0.jar
protobuf-java-2.4.1.jar
sac-1.3.jar
serializer-2.7.1.jar
testng-6.8.5.jar
xalan-2.7.1.jar
xercesImpl-2.11.0.jar
xml-apis-1.4.01.jar