HttpClient 爬数据时出现部分中文编码问题

最新推荐文章于 2021-02-07 09:03:32 发布

wxw87281913

最新推荐文章于 2021-02-07 09:03:32 发布

阅读量161

点赞数

分类专栏： java 文章标签： Eclipse 嵌入式 HTML

本文链接：https://blog.csdn.net/wxw87281913/article/details/83703280

版权

java 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>中文字库</title><body>中文字，偷偷藏着的Unicode码：合击狼族鋼鐵師诚招團队</body></html>

二、开始抓取

HttpClient client = new HttpClient();
HttpMethod method = new GetMethod(“http://www.test.com/test.html”);
method.addRequestHeader("Content-Type", "text/html; charset=GB2312");

byte[] html = method.getResponseBody();
String body = new String(html,Charset.forName("GB2312"));
System.out.println(“======”+body);

三、输出结果

<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>中文字库</title><body>中文字，偷偷藏着的Unicode码：合击狼族口口口诚招口队</body></html>

抓取到的数据中，隐藏中的Unicode码不是变成方框口，就是变成问号？。

解决办法： String body = new String(html,Charset.forName("GB18030"));

解决的根据如下：

中国国标编码:

GB 13000: 完全等同于ISO 10646-1/Unicode 2.1, 今后也将随ISO 10646/Unicode的标准更改而同步更改.
GBK: 对GB2312的扩充, 以容纳GB2312字符集范围以外的Unicode 2.1的统一汉字部分, 并且增加了部分unicode中没有的字符.
GB 18030-2000: 基于GB 13000, 作为Unicode 3.0的GBK扩展版本, 覆盖了所有unicode编码, 地位等同于UTF-8, UTF-16, 是一种unicode编码形式. 变长编码, 用单字节/双字节/4字节对字符编码. GB18030向下兼容GB2312/GBK.
GB 18030是中国所有非手持/嵌入式计算机系统的强制实施标准.
题外：Eclipse3.4后的默认中文编码是GB18030，之前的的Eclipse版本用的是GBK~~

wxw87281913

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HttpClient 爬数据时出现部分中文编码问题

中文字库中文字，偷偷藏着的Unicode码：合击狼族鋼鐵師诚招團队二、开始抓取 HttpClient client = new HttpClient(); HttpMethod method = new GetMethod(“http://www.test.com/test.html”); method.addReq...
复制链接

扫一扫