http://www.open-open.com/code/view/1423559263061?sort=active&lang=0&catalog=2
最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法 获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。 了解和使用过程中,发现这是一个非常牛逼的开源工具,虽然名气比httpclient小,但是实力绝对不容小觑。 闲话少说。 可以从这里下载:http://sourceforge.net/projects /htmlunit/files/htmlunit/2.15/
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
String url=
"http://outofmemory.cn/"
;//想采集的网址
String refer=
"http://open-open.com/"
;
URL link=
new
URL(url);
WebClient wc=
new
WebClient();
WebRequest request=
new
WebRequest(link);
request.setCharset(
"UTF-8"
);
request.setProxyHost(
"120.120.120.x"
);
request.setProxyPort(
8080
);
request.setAdditionalHeader(
"Referer"
, refer);
//设置请求报文头里的refer字段
设置请求报文头里的User-Agent字段
request.setAdditionalHeader(
"User-Agent"
,
"Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"
);
//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
//其他报文头字段可以根据需要添加
wc.getCookieManager().setCookiesEnabled(
true
);
//开启cookie管理
wc.getOptions().setJavaScriptEnabled(
true
);
//开启js解析。对于变态网页,这个是必须的
wc.getOptions().setCssEnabled(
true
);
//开启css解析。对于变态网页,这个是必须的。
wc.getOptions().setThrowExceptionOnFailingStatusCode(
false
);
wc.getOptions().setThrowExceptionOnScriptError(
false
);
wc.getOptions().setTimeout(
10000
);
//设置cookie。如果你有cookie,可以在这里设置
Set<Cookie> cookies=
null
;
Iterator<Cookie> i = cookies.iterator();
while
(i.hasNext())
{
wc.getCookieManager().addCookie(i.next());
}
//准备工作已经做好了
HtmlPage page=
null
;
page = wc.getPage(request);
if
(page==
null
)
{
System.out.println(
"采集 "
+url+
" 失败!!!"
);
return
;
}
String content=page.asText();
//网页内容保存在content里
if
(content==
null
)
{
System.out.println(
"采集 "
+url+
" 失败!!!"
);
return
;
}
//搞定了
CookieManager CM = wc.getCookieManager();
//WC = Your WebClient's name
Set<Cookie> cookies_ret = CM.getCookies();
//返回的Cookie在这里,下次请求的时候可能可以用上啦。
|