利用HtmlUnit 模拟浏览器抓取网页数据

http://www.open-open.com/code/view/1423559263061?sort=active&lang=0&catalog=2


最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法 获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。 了解和使用过程中,发现这是一个非常牛逼的开源工具,虽然名气比httpclient小,但是实力绝对不容小觑。 闲话少说。 可以从这里下载:http://sourceforge.net/projects /htmlunit/files/htmlunit/2.15/

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
String  url= "http://outofmemory.cn/" ;//想采集的网址
             String refer= "http://open-open.com/" ;
             URL link= new URL(url);
             WebClient wc= new WebClient();
             WebRequest request= new WebRequest(link);
             request.setCharset( "UTF-8" );
             request.setProxyHost( "120.120.120.x" );
             request.setProxyPort( 8080 );
             request.setAdditionalHeader( "Referer" , refer); //设置请求报文头里的refer字段
             设置请求报文头里的User-Agent字段
             request.setAdditionalHeader( "User-Agent" , "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2" );
             //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
             //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
             //其他报文头字段可以根据需要添加
             wc.getCookieManager().setCookiesEnabled( true ); //开启cookie管理
             wc.getOptions().setJavaScriptEnabled( true ); //开启js解析。对于变态网页,这个是必须的
             wc.getOptions().setCssEnabled( true ); //开启css解析。对于变态网页,这个是必须的。
             wc.getOptions().setThrowExceptionOnFailingStatusCode( false );
             wc.getOptions().setThrowExceptionOnScriptError( false );
             wc.getOptions().setTimeout( 10000 );
             //设置cookie。如果你有cookie,可以在这里设置
             Set<Cookie> cookies= null ;
             Iterator<Cookie> i = cookies.iterator();
             while (i.hasNext())
             {
                 wc.getCookieManager().addCookie(i.next());
             }
             //准备工作已经做好了
             HtmlPage page= null ;
             page = wc.getPage(request);
             if (page== null )
             {
                 System.out.println( "采集 " +url+ " 失败!!!" );
                 return ;
             }
             String content=page.asText(); //网页内容保存在content里
             if (content== null )
             {
                 System.out.println( "采集 " +url+ " 失败!!!" );
                 return ;
             }
             //搞定了
             CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
             Set<Cookie> cookies_ret = CM.getCookies(); //返回的Cookie在这里,下次请求的时候可能可以用上啦。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值