Jsoup获取网页中以javascript加载的数据的方法

本文探讨了使用Jsoup抓取网页数据的局限性,特别是在处理由JavaScript动态生成的内容方面。介绍了PhantomJS+Selenium的解决方案,通过模拟浏览器运行,能够有效抓取动态加载的数据。
摘要由CSDN通过智能技术生成

Jsoup是一款java的HTML解析器,可以帮助我们在网页中获得更多数据源,但是有的信息浏览器中显示了,却无法抓取信息,应为该信息不是直接在标签内的,而是元素加载完成事件,javascript加载完成获取数据,而Jsoup不是浏览器,无法运行javascript.原理图如下![解析过程图(https://img-blog.csdnimg.cn/20190220211600499.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDU5NDA1Ng==,size_16,color_FFFFFF,t_70)
接下来为大家带来两种解决方法。

  • 通过Jsoup获取页面对象,获取javascript解析,该方法代码复杂,难度高,不建议使用。
  • 使用PhantomJs+Selenium工具模拟浏览器运行,实现流程如下:实现流程

Phantomjs是基于webkit内核的无头浏览器,提供各种系统版本可支持不同平台,并提供javascript API接口
官网下载:http://phantomjs.org/download.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值