Jsoup处理html空格乱码问题

由于在html中空格只能用 表示,当运用Jsoup抓取html页面后,我们将html页面进行解析时,Java对html页面的代码不识别,输入到控制台时出现乱码,在网上查了很多资料都没有找到很好的解决办法,最后在一篇论坛中说到“运用字符串替换”可以进行解决,于是运用简单的字符串替换原理对此进行处理。对其替换处理后再对html文件进行解析。具体实现代码如下:

//参数说明:oldFile为所需要替换的文件,即为原文件;   newFile为替换后新的文件 ;oldString为所需要替换的字符串;newString为替换字符串
	public static void replaceAllFileString(File oldFile, File newFile, String oldString, String newString){
		try {
		BufferedReader reader = new BufferedReader(new FileReader(oldFile));
		BufferedWriter writer = new BufferedWriter(new FileWriter(newFile));
		String teamString = null;
		while((teamString = reader.readLine()) != null){
			String str = teamString.replaceAll(oldString, newString);
			writer.write(str);
		}
		reader.close();
		writer.close();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值