UTF-8转GBK，字符C2A0不在GBK中，引起的问题

最新推荐文章于 2024-05-15 08:05:39 发布

六月·飞雪

最新推荐文章于 2024-05-15 08:05:39 发布

阅读量1.4k

点赞数

分类专栏： java基础文章标签： xml windows GBK 0xC2A0 特殊空格

本文链接：https://blog.csdn.net/z_ssyy/article/details/125154506

版权

java基础专栏收录该内容

68 篇文章 0 订阅

订阅专栏

本文讲述了在Windows系统中，由于GBK字符集限制，网页文本中的全角空格（C2A0）在文件名保存时变为问号的问题，介绍了C2A0的UTF-8编码和处理方法，包括Java代码替换和服务器端UTF-8编码传输的建议。

摘要由CSDN通过智能技术生成

今天遇到一个问题：

网页上的一段文字中有几个空格，把这段文字当作文件名称保存为一个windows系统下的文件后，文件名中本来是空格的地方变成了问号，原因是GBK字符集没有这个字符。

初步估计是这几个空格的编码有问题。用16进制的编辑器打开这段文字：

打开后发现，这几个空格的编码是C2A020C2A0，那么平常用的空格是什么编码呢？

找到一个正常的带空格的字符串“2018-11-20 14:09:07”看了一下，中间的空格的编码是20通过对比发现C2A020C2A0是三个“空格”，分别是C2A0、20、C2A0，那么这个C2A0到底是什么呢？

C2A0是UTF8里的排版用的空格（这个空格是与ASCII、unicode中的空格是不一样的，ASCII中的空格编码是20，unicode中的空格是0xA0），但是这个特殊的字符，不在GBK字符集中。却频繁用于xml/html等格式的文件中。大量UTF-编码的网页使用这个字符用作占位的空格。而且不同浏览器对它的处理方式不同：IE浏览器识别出该符号并以空格显示，chrome、firefox则替换为xml转义字符。

原来C2A0就是我们网页中常用的全角空格。用户从其他网页上拷贝了一段包含此字符的字符串，复制到我们的网页界面上显示正常，但是我们的C++程序将编码格式转换成 GBK时，就出现了乱码。

GBK字符集只收录了两万多个字符，比UTF-8的字符数量少得多。转化到GBK编码的时候，就会有编码是GBK字符集以外的，不能转化成GBK编码。这部分字符在转换之后的字符串中都变成了“?”，注意，这个问号只是显示为问号而不是真正的问号。

处理方法：

在保存文件之前，对文件名做一个特殊处理，用 0×20 代替掉 0xC2A0

java的处理方式如下：

这个问题出现得比较早：在传给印象派的作品描述XML(GBK编码)中一些文字信息经常包含乱码，而且会一乱到底，甚至导致不同页的错乱。刚开始一直都没有什么头绪，不过后来终于发现了部分头绪：GBK的字符集过小，对一些特殊字符的转码会出现乱码—-一些生僻字也就算了，但是其中却包括这个字符：C2A0—-一个在网页上经常使用排版用全角空格。就是这么个字符，用户从网页端拷贝了一段文字，复制到界面上显示正常，保存到作品XML文件中(UTF8编码)，显示正常。但是上传作品时由于将相应的XML编码格式转换成GBK，于是出现了乱码……
处理方法：

方法一：转换时对文本信息做特殊处理，用0×20代替掉0xC2A0。

方法二：作品XML文件直接以UTF8编码传输。

方法一有点头疼治头脚疼治脚的味道，虽然解决了这个问题，但是总归不够规范不够完美—-很多页面都是这么做。而方法二则需要服务器支持，但可以完美的解决这个问题。以前服务器之所以用GBK编码很大的理由可能在于GBK相对UTF8更省空间—-在这么个硬盘空间足够，带宽足够的现状下，节约出来的那么点东西又有什么用呢？

如果要强制使用GBK编码，那就要把0xC2A0替换成0×20，因为GBK字符集里没有0xC2A0这个字符

/**
	 * 
	 * 将不换行空格（NO-BREAK SPACE，Unicode 0x00a0，UTF-8编码：0xC2A0）替换为普通空格。
	 * 
	 * 用于避免因数据库字符集不兼容导致这个字符变为问号“?”的情况。
	 */
 
	public static String nobreakSpaceToSpace(String str) {
		if (str == null) {
			return null;
		}
		char nbsp = 0x00a0;
		return str.replace(nbsp, ' ');
	}

六月·飞雪

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
UTF-8转GBK，字符C2A0不在GBK中，引起的问题

今天遇到一个问题：网页上的一段文字中有几个空格，把这段文字当作文件名称保存为一个windows系统下的文件后，文件名中本来是空格的地方变成了问号，原因是GBK字符集没有这个字符。初步估计是这几个空格的编码有问题。用16进制的编辑器打开这段文字：打开后发现，这几个空格的编码是C2A020C2A0，那么平常用的空格是什么编码呢？找到一个正常的带空格的字符串“2018-11-20 14:09:07”看了一下，中间的空格的编码是20通过对比发现C2A020C2A0是三个“空格”，分别是C2A0、20、C2A0，那么
复制链接

扫一扫

专栏目录