HtmlUnit 模拟浏览器以及Cookie使用示例

String  url="http://outofmemory.cn/";//想采集的网址
            String refer="http://outofmemory.cn/";
            URL link=new URL(url); 
            WebClient wc=new WebClient();
            WebRequest request=new WebRequest(link); 
            request.setCharset("UTF-8");
            request.setProxyHost("120.120.120.x");
            request.setProxyPort(8080);
            request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段
            设置请求报文头里的User-Agent字段
            request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
            //其他报文头字段可以根据需要添加
            wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
            wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的
            wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。
            wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
            wc.getOptions().setThrowExceptionOnScriptError(false);
            wc.getOptions().setTimeout(10000);
            //设置cookie。如果你有cookie,可以在这里设置
            Set<Cookie> cookies=null;
            Iterator<Cookie> i = cookies.iterator();
            while (i.hasNext()) 
            {
                wc.getCookieManager().addCookie(i.next());
            }
            //准备工作已经做好了
            HtmlPage page=null;
            page = wc.getPage(request);
            if(page==null)
            {
                System.out.println("采集 "+url+" 失败!!!");
                return ;
            }
            String content=page.asText();//网页内容保存在content里
            if(content==null)
            {
                System.out.println("采集 "+url+" 失败!!!");
                return ;
            }
            //搞定了
            CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
            Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值