JAVA 爬虫获取js动态生成的网页数据

最新推荐文章于 2024-07-11 14:37:44 发布

ylzhusky

最新推荐文章于 2024-07-11 14:37:44 发布

阅读量1.5w

点赞数 13

分类专栏： java 文章标签： java 爬虫数据

本文链接：https://blog.csdn.net/zeroctu/article/details/53818185

版权

当遇到由JavaScript动态生成的网页数据难以直接获取时，可以使用PhantomJS进行处理。首先从官方网站下载并解压PhantomJS，在Windows环境下找到bin目录下的exe可执行文件。然后编写一个parser.js脚本来执行页面加载和数据提取。最后通过Java调用PhantomJS来执行这个脚本，从而获取到js加载后的网页数据。

摘要由CSDN通过智能技术生成

问题：
有些网页数据是由js动态生成的，一般我们抓包可以看出真正的数据实体是由哪一个异步请求获取到的，但是获取数据的请求链接也可能由其他js产生，这个时候我们希望直接拿到js加载后的最终网页数据。

解决方法：
phantomjs
1.下载phantomjs，[官网]：http://phantomjs.org/
2.我们是windows平台，解压，会在bin目录下看到exe可执行文件，有它就够啦。
3.写一个parser.js：

system = require('system')  
address = system.args[1];
var page = require('webpage').create();  
var url = address;  

page.settings.resourceTimeout = 1000*10;