在看有些网页的源代码里面有&#x的字符,把这些字符还原成正常的字,替换掉原网页
// 定义正则表达式来搜索中文字符的转义符号
Pattern compile = Pattern.compile("&#.*?;");
// 测试用中文字符
Matcher matcher = compile.matcher(sourceString);
// 循环搜索 并转换 替换
while (matcher.find()) {
String group = matcher.group();
// 获得16进制的码
String hexcode = "0" + group.replaceAll("(&#|;)", "");
// 字符串形式的16进制码转成int并转成char 并替换到源串中
sourceString = sourceString.replaceAll(group, (char) Integer.decode(hexcode).intValue() + "");
}
Log.i("tag","网页内容"+sourceString);