使用jsoup写网络爬虫时,通过Jsoup.connect(url).get()获取html页面,在解析的过程中经常出现 空格乱码问题,其他中文字符能够正常输出
下面代码给出了一个例子,解决空格乱码问题
public void parseUrl(String url) {
try {
Document doc = Jsoup.connect(url).get();
// String text = doc.select("div.txt_p").text(); 没有处理 空格之前
String text = doc.select("div.txt_p").text().replace(Jsoup.parse(" ").text(), " ");
//使用replace(Jsoup.parse(" ").text(), " "); 将 替换为普通的空格
//div.txt_p为选择解析html页面的一个属性
System.out.println(text );
} catch (IOException e) {
e.printStackTrace();
}
}