Unicode和多字节字符集 (MBCS) 杂谈

最新推荐文章于 2024-03-07 15:40:35 发布

zhuifengwy

最新推荐文章于 2024-03-07 15:40:35 发布

阅读量473

点赞数

文章标签： mbcs Unicode

这个估计是很多人曾经头疼过的问题，现在的VC版本基本都支持Unicode和多字节字符集 (MBCS)，在进行MFC编程时VC的默认设置是unicode字符集。但是我们通常需要做一些代码移植的工作，如果将多字节字符集下的程序代码移植到unicode字符集环境中，就需要针对此做出很多类型的转换，反之亦然。

首先，了解一下unicode和多字符字符集（MBSS)的区别：

在计算机中字符通常并不是保存为图像，每个字符都是使用一个编码来表示的，而每个字符究竟使用哪个编码代表，要取决于使用哪个字符集(charset)。在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，因此，为了能够表示其它国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。

由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，提出了Unicode字符集，它固定使用16 bits（两个字节、一个字）来表示一个字符，共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中，方便了信息交流。标准的Unicode称为UTF-16。

多字节字符集 (MBCS)，字符的宽度可以是一个字节，也可是两个字节。如果字符的宽度是两个字节，那么它的第一个字节就是一个特殊的“前导字节”，该字节是根据所使用的代码页从某个特定范围选定的。前导字节和“尾字节”合起来指定一个唯一的字符编码。

如果为程序的生成定义了符号 _MBCS，则类型 TCHAR（CString 基于该类型）将映射到 char。由您来决定CString 中的哪些字节是前导字节，哪些字节是尾字节。C 运行时库提供函数来帮助您进行确定。

在 DBCS 下，给定的字符串可以包含所有的单字节 ANSI 字符、所有的双字节字符或两者的组合。这些可能性需要您在分析字符串（包括 CString 对象）时要备加小心。

注意 MFC 中的 Unicode 字符串序列化能够读取 Unicode 和 MBCS 字符串，而不论运行的是哪个版本的应用程序。正因为如此，数据文件在程序的 Unicode 和 MBCS 版本之间是可移植的。

CString 成员函数使用其调用的 C 运行时库特殊的“一般文本”版本，或使用识别 Unicode 的函数，如lstrlen 或 lstrcpy。因此，如果 CString 函数通常情况下调用 strcmp，那么它会调用相应的一般文本函数 _tcscmp。根据符号 _MBCS 和 _UNICODE 定义方式的不同，_tcscmp 映射如下：

_MBCS 已定义 _mbscmp

_UNICODE 已定义 wcscmp

两者都未定义 strcmp

注意   符号 _MBCS 和 _UNICODE 是互相排斥的。

CString 是基于 TCHAR 数据类型的。如果为程序的生成定义了符号 _UNICODE，则会将 TCHAR定义为 wchar_t 类型（一个 16 位的字符编码类型）；否则，会将它定义为 char（普通的 8 位字符编码）。于是，在 Unicode 下，CString 由 16 位字符组成。如果没有 Unicode，它们则由char 类型的字符组成。

要完成应用程序的 Unicode 编程，还必须：

使用 _T 宏有条件地编写字符串的代码，使之可移植到 Unicode。
当传递字符串时，请注意函数参数要求的长度是以字符为单位还是以字节为单位的。如果在使用 Unicode 字符串，这一区别是很重要的。
使用 C 运行时字符串处理函数的可移植版本。
使用以下用于字符和字符指针的数据类型：
TCHAR   这里将使用 char。
LPTSTR   这里将使用 char*。
LPCTSTR   这里将使用 const char*。CString 提供 operator LPCTSTR 来在CString 和 LPCTSTR 之间进行转换。

CString 还提供识别 Unicode 的构造函数，赋值运算符和比较运算符。