Jsoup是一款java的HTML解析器,可以帮助我们在网页中获得更多数据源,但是有的信息浏览器中显示了,却无法抓取信息,应为该信息不是直接在标签内的,而是元素加载完成事件,javascript加载完成获取数据,而Jsoup不是浏览器,无法运行javascript.原理图如下
Phantomjs是基于webkit内核的无头浏览器,提供各种系统版本可支持不同平台,并提供javascript API接口
官网下载:http://phantomjs.org/download.html
本文探讨了使用Jsoup抓取网页数据的局限性,特别是在处理由JavaScript动态生成的内容方面。介绍了PhantomJS+Selenium的解决方案,通过模拟浏览器运行,能够有效抓取动态加载的数据。

1075

被折叠的 条评论
为什么被折叠?



