1.1 字符类型的整理与总结

最新推荐文章于 2020-10-28 16:17:59 发布

xuelangwin

最新推荐文章于 2020-10-28 16:17:59 发布

阅读量371

点赞数

分类专栏： C++ VS 文章标签：编码 unicode 字符

本文链接：https://blog.csdn.net/xuelangwin/article/details/50985890

版权

C++ 同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

目前常用的两种编码方式标准有两种ANSI和UNICODE两种。ANSI中的字符采用8bit，而UNICODE中的字符采用16bit。（对于字符来说ANSI以单字节存放英文字符，以双字节存放中文等字符,而Unicode下，英文和中文的字符都以双字节存放）Unicode码也是一种国际标准编码，采用二个字节编码，与ANSI码不兼容。目前，在网络、Windows系统和很多大型软件中得到应用。8bit的ANSI编码只能表示256种字符，表示26个英文字母是绰绰有余的，但是表示汉字，韩国语等有着成千上万个字符的非西方字符肯定就不够了，正是如此才引入了UNICODE标准。

1. 两种编码标准的基础类型:

编码方式

基础类型

存储空间

程序中的实现方式

备注

ANSI

char

1 byte

默认为ANSI格式

UNICODE

unsigned short

又叫（wchar_t /WCHAR）

2 byte

Ｃ语言中提前声明宏_UNICODE（带下划线）

Windows中提前声明宏UNICODE（不带下划线）

由于表示汉字是1byte的存储空间是不够的，所以出现2byte形式

备注：在使用VS2010编程时，程序中的编码格式还可不通过宏定义进行设置，可以通过程序属性配置完成。项目à属性à配置属性à常规à项目默认值à字符集（未设置为ANSI）

2. 为了方便类型之间的转化一般运用TCHAR和LPTSTR字符类型以实现总体类型的转化：

类型	没有提前声明宏，默认为ANSI	提前声明unicode宏（c和Windows不同）
TCHAR	char	wchar_t (WCHAR)
LPTSTR	char* (LPSTR)	wchar_t* (LPWSTR)

3. 类型之间的互相转化

(有三种方法)http://www.cnblogs.com/fire-phoenix/archive/2010/09/04/1818248.html

(第一种方法的详细介绍)

http://www.cnblogs.com/wind-net/archive/2012/10/31/2718329.html

扩展：

1 Win32API的A/W函数（http://www.fmddlmyy.cn/text7.html）

要了解Win32子系统的DLL们提供了哪些API，最直接的方法就是用Win32dsm直接查看DLL们的导出表。这时我们会发现Win32 API中带字符串的API一般都有两个版本，例如CreateFileA和CreateFileW。当然也有例外，例如GetProcAddress函数。

A代表ANSI代码页，W是宽字符，即Unicode字符。Windows中的Unicode字符一般指UCS2的UTF16-LE编码。让我们通过几个实例观察A/W版本间的关系。

例1：用WIn32dsm查看gdi32.dll的汇编代码，可以看到TextOutA调用GdiGetCodePage获取当前代码页，再调用MultiByteToWideChar转换输入的字符串，然后调用一个内部函数。而TextOutW直接调用这个内部函数。

从以上例子可见，A版本总会在某处将输入的字符串转换为Unicode字符串，然后和W版本执行相同的代码。在由A/W版本API引出MBCS程序和Unicode程序前，让我们先解释一下Locale和ANSI代码页。

xuelangwin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.1 字符类型的整理与总结

目前常用的两种编码方式标准有两种ANSI和UNICODE两种。ANSI中的字符采用8bit，而UNICODE中的字符采用16bit。（对于字符来说ANSI以单字节存放英文字符，以双字节存放中文等字符,而Unicode下，英文和中文的字符都以双字节存放）Unicode码也是一种国际标准编码，采用二个字节编码，与ANSI码不兼容。目前，在网络、Windows系统和很多大型软件中得到应用。8bit的AN
复制链接

扫一扫

专栏目录