目前常用的两种编码方式标准有两种ANSI和UNICODE两种。ANSI中的字符采用8bit,而UNICODE中的字符采用16bit。(对于字符来说ANSI以单字节存放英文字符,以双字节存放中文等字符,而Unicode下,英文和中文的字符都以双字节存放)Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。8bit的ANSI编码只能表示256种字符,表示26个英文字母是绰绰有余的,但是表示汉字,韩国语等有着成千上万个字符的非西方字符肯定就不够了,正是如此才引入了UNICODE标准。
1. 两种编码标准的基础类型:
编码方式 | 基础类型 | 存储空间 | 程序中的实现方式 | 备注 |
ANSI | char | 1 byte | 默认为ANSI格式 |
|
UNICODE | unsigned short 又叫(wchar_t /WCHAR) | 2 byte | C语言中提前声明宏_UNICODE(带下划线)
Windows中提前声明宏UNICODE(不带下划线) | 由于表示汉字是1byte的存储空间是不够的,所以出现2byte形式 |
备注:在使用VS2010编程时,程序中的编码格式还可不通过宏定义进行设置,可以通过程序属性配置完成。项目à属性à配置属性à常规à项目默认值à字符集(未设置为ANSI)
2. 为了方便类型之间的转化一般运用TCHAR和LPTSTR字符类型以实现总体类型的转化:
类型 | 没有提前声明宏,默认为ANSI | 提前声明unicode宏(c和Windows不同) |
TCHAR | char | wchar_t (WCHAR) |
LPTSTR | char* (LPSTR) | wchar_t* (LPWSTR) |
3. 类型之间的互相转化
(有三种方法)http://www.cnblogs.com/fire-phoenix/archive/2010/09/04/1818248.html
(第一种方法的详细介绍)
http://www.cnblogs.com/wind-net/archive/2012/10/31/2718329.html
扩展:
1 Win32API的A/W函数(http://www.fmddlmyy.cn/text7.html)
要了解Win32子系统的DLL们提供了哪些API,最直接的方法就是用Win32dsm直接查看DLL们的导出表。这时我们会发现Win32 API中带字符串的API一般都有两个版本,例如CreateFileA和CreateFileW。当然也有例外,例如GetProcAddress函 数。
A代表ANSI代码页,W是宽字符,即Unicode字符。Windows中的Unicode字符一般指UCS2的UTF16-LE编码。让我们通过几个实例观察A/W版本间的关系。
例1:用WIn32dsm查看gdi32.dll的汇编代码,可以看到TextOutA调用GdiGetCodePage获取当前代码页,再调用MultiByteToWideChar转换输入的字符串,然后调用一个内部函数。而TextOutW直接调用这个内部函数。
从以上例子可见,A版本总会在某处将输入的字符串转换为Unicode字符串,然后和W版本执行相同的代码。在由A/W版本API引出MBCS程序和Unicode程序前,让我们先解释一下Locale和ANSI代码页。