通过HttpClient获取数据出现乱码的问题的解决

通过HttpClient获取数据后,最终解析出来的数据,针对某些请求会出现中文乱码的情况,而有的请求则不会。

检查代码发现

在实现的时候,为避免乱码的问题出现,返回给调用方的是HttpMethod.getResponseBody()这样的字节数据,同时也会将响应结果中的HttpMethodBase.getResponseCharSet()响应编码方式返回给调用方。

调用在在最终使用的过程中是按照如下方式使用的:

 

try {
            return new String(data, offset, length, charset);
        } catch (UnsupportedEncodingException e) {

            if (LOG.isWarnEnabled()) {
                LOG.warn("Unsupported encoding: " + charset + ". System encoding used");
            }
            return new String(data, offset, length);
        }

 

 也就是说,针对返回的结果,调用反为防止乱码的出现已经经过了编码处理。可是针对某些请求,中文仍旧会出现乱码的情况。

 

进一步分析发现,其实在结果返回之前,拿到HttpMethod.getResponseBodyAsString()的时候已经是乱码了。

既:在已经是乱码的情况下,无论经过什么样的处理,最终的结果仍旧是乱码。

 

这样一来,问题可以定位为HttpClient在读取response的内容的时候已经做了一次编码转换。

 

现在对http响应的编码进行分析。http响应的编码有两个部分,response头里的参数和页面开头的meta信息。

例如:浏览器首先是针对response头来设置页面charset的。而httpClient模拟页面也是采用相同方式。所以其实乱码跟meta无关。

解决办法,在连接网络之前,设置请求的编码类型,如下:

 

HttpClient client = ...
client.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET,DEFAULT_REQUEST_CHARSET);

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值