今天抓数据的时候在浏览器中看到的是中文,但是获取到的源码却是一串以&#x开头的字符串。以为可能是某种编码后的字符串。查资料得知是转义序列,不是编码。
&#开头的接十进制数字
&#x开头的接十六进制数字
对于这些转义序列Java有现成的工具类可以帮我们转义和反转义,只需要导入org.apache.commons.lang jar包即可。
package test;
import org.apache.commons.lang.StringEscapeUtils;
public class rectangle {
public static void main(String[] arge) {
String s = StringEscapeUtils.unescapeHtml("振荡器类型");
System.out.println(s);
String s1=StringEscapeUtils.escapeHtml("你好");
System.out.println(s1);
}
}