
网络爬虫
文章平均质量分 57
zbao007
停车!这不是去幼儿园的车!我要下车!
展开
-
如何用websocket抓取JS渲染页面
上次面试,面试官问了下如何使用websocket抓取js渲染了的页面,因为原来抓取小说网站上的首页面都是静态网页,还没考虑过js渲染页面,后来看了看,发现使用websocket抓取js渲染页面主要有两种方式: 1.使用工具,将页面进行js渲染之后再抓取,这主要的工具有Selenium、HtmlUnit或者PhantomJs,但是这些工具都存在一定的效率问题,同时也不是那么稳定。好处是编写规则同静原创 2016-09-25 09:28:43 · 2713 阅读 · 0 评论 -
WebMagic爬虫案例
使用Maven导入以下两个包: us.codecraft webmagic-core 0.5.2 us.codecraft webmagic-extension 0.5.2原创 2016-09-13 23:20:45 · 3428 阅读 · 0 评论