利用HtmlUnit 模拟浏览器抓取网页数据

最新推荐文章于 2022-02-13 15:33:37 发布

wslz2001

最新推荐文章于 2022-02-13 15:33:37 发布

阅读量2.5k

点赞数

分类专栏： java 文章标签： java htmlunit

java 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

http://www.open-open.com/code/view/1423559263061?sort=active&lang=0&catalog=2

最近写爬虫的时候，利用httpclient抓取一些网页出现一些问题，就是抓取回来的内容都含有大量的加密文本（通过javascript脚本），无法获得真实的内容（也就是用浏览器打开网页呈现的内容）。所以，一般需要配合js引擎来解决这个问题，搜索了下，发现htmlunit这个工具就可以帮忙。了解和使用过程中，发现这是一个非常牛逼的开源工具，虽然名气比httpclient小，但是实力绝对不容小觑。闲话少说。可以从这里下载：http://sourceforge.net/projects /htmlunit/files/htmlunit/2.15/

 
        String  url= 
        "http://outofmemory.cn/" 
        ;//想采集的网址 
       
        String refer= 
        "http://open-open.com/" 
        ; 
       
        URL link= 
        new 
         URL(url);  
       
        WebClient wc= 
        new 
         WebClient(); 
       
        WebRequest request= 
        new 
         WebRequest(link);  
       
        request.setCharset( 
        "UTF-8" 
        ); 
       
        request.setProxyHost( 
        "120.120.120.x" 
        ); 
       
        request.setProxyPort( 
        8080 
        ); 
       
        request.setAdditionalHeader( 
        "Referer" 
        , refer); 
        //设置请求报文头里的refer字段 
       
        设置请求报文头里的User-Agent字段 
       
        request.setAdditionalHeader( 
        "User-Agent" 
        ,  
        "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2" 
        ); 
       
        //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); 
       
        //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。 
       
        //其他报文头字段可以根据需要添加 
       
        wc.getCookieManager().setCookiesEnabled( 
        true 
        ); 
        //开启cookie管理 
       
        wc.getOptions().setJavaScriptEnabled( 
        true 
        ); 
        //开启js解析。对于变态网页，这个是必须的 
       
        wc.getOptions().setCssEnabled( 
        true 
        ); 
        //开启css解析。对于变态网页，这个是必须的。 
       
        wc.getOptions().setThrowExceptionOnFailingStatusCode( 
        false 
        ); 
       
        wc.getOptions().setThrowExceptionOnScriptError( 
        false 
        ); 
       
        wc.getOptions().setTimeout( 
        10000 
        ); 
       
        //设置cookie。如果你有cookie，可以在这里设置 
       
        Set<Cookie> cookies= 
        null 
        ; 
       
        Iterator<Cookie> i = cookies.iterator(); 
       
        while 
         (i.hasNext())  
       
        { 
       
        wc.getCookieManager().addCookie(i.next()); 
       
        } 
       
        //准备工作已经做好了 
       
        HtmlPage page= 
        null 
        ; 
       
        page = wc.getPage(request); 
       
        if 
        (page== 
        null 
        ) 
       
        { 
       
        System.out.println( 
        "采集 " 
        +url+ 
        " 失败!!!" 
        ); 
       
        return 
         ; 
       
        } 
       
        String content=page.asText(); 
        //网页内容保存在content里 
       
        if 
        (content== 
        null 
        ) 
       
        { 
       
        System.out.println( 
        "采集 " 
        +url+ 
        " 失败!!!" 
        ); 
       
        return 
         ; 
       
        } 
       
        //搞定了 
       
        CookieManager CM = wc.getCookieManager();  
        //WC = Your WebClient's name 
       
        Set<Cookie> cookies_ret = CM.getCookies(); 
        //返回的Cookie在这里，下次请求的时候可能可以用上啦。