Jsoup是一款java的HTML解析器,可以帮助我们在网页中获得更多数据源,但是有的信息浏览器中显示了,却无法抓取信息,应为该信息不是直接在标签内的,而是元素加载完成事件,javascript加载完成获取数据,而Jsoup不是浏览器,无法运行javascript.原理图如下![解析过程图(https://img-blog.csdnimg.cn/20190220211600499.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDU5NDA1Ng==,size_16,color_FFFFFF,t_70)
接下来为大家带来两种解决方法。
- 通过Jsoup获取页面对象,获取javascript解析,该方法代码复杂,难度高,不建议使用。
- 使用PhantomJs+Selenium工具模拟浏览器运行,实现流程如下:
Phantomjs是基于webkit内核的无头浏览器,提供各种系统版本可支持不同平台,并提供javascript API接口
官网下载:http://phantomjs.org/download.html