lua实现全角转半角

最新推荐文章于 2024-05-21 21:38:42 发布

VIP文章 weixin_44973055

最新推荐文章于 2024-05-21 21:38:42 发布

阅读量678

点赞数

分类专栏： U3D 文章标签： lua

本文链接：https://blog.csdn.net/weixin_44973055/article/details/99584266

版权

知识贮备：

1.1 ASCII码

我们知道, 在计算机内部, 全部的信息终于都表示为一个二进制的字符串. 每个二进制
位(bit)有0和1两种状态, 因此八个二进制位就能够组合出 256种状态, 这被称为一个字
节(byte). 也就是说, 一个字节一共能够用来表示256种不同的状态, 每个状态相应一
个符号, 就是256个符号, 从 0000000到11111111.

上个世纪60年代, 美国制定了一套字符编码, 对英语字符与二进制位之间的关系, 做了统
一规定. 这被称为ASCII码, 一直沿用至今.

ASCII码一共规定了128个字符的编码, 比方空格"SPACE"是32(二进制00100000), 大写的
字母A是65(二进制01000001). 这128个符号(包含32个不能打印出来的控制符号), 仅仅占用
了一个字节的后面7位, 最前面的1位统一规定为0.

1.2 非ASCII编码

英语用128个符号编码就够了, 可是用来表示其它语言, 128个符号是不够的. 比方, 在法
语中, 字母上方有注音符号, 它就无法用ASCII码表示. 于是, 一些欧洲国家就决定, 利
用字节中闲置的最高位编入新的符号. 比方, 法语中的é的编码为130(二进制10000010).
这样一来, 这些欧洲国家使用的编码体系, 能够表示最多256个符号.

可是, 这里又出现了新的问题. 不同的国家有不同的字母, 因此, 哪怕它们都使用256个
符号的编码方式, 代表的字母却不一样. 比方, 130在法语编码中代表了é, 在希伯来语
编码中却代表了字母Gimel (ג), 在俄语编码中又会代表还有一个符号.

NOTE:
可是无论如何, 全部这些编码方式中, 0-127表示的符号是一样的, 不一样的仅仅是128-255
的这一段. // MMMMM

至于亚洲国家的文字, 使用的符号就很多其它了, 汉字就多达10万左右. 一个字节仅仅能表示
256种符号, 肯定是不够的, 就必须使用多个字节表达一个符号. 比方, 中文简体常见的
编码方式是GB2312, 使用两个字节表示一个汉字, 所以理论上最多能够表示
256x256=65536个符号.

Unicode

2.1 Unicode的定义

正如上一节所说, 世界上存在着多种编码方式, 同一个二进制数字能够被解释成不同的符
号. 因此, 要想打开一个文本文件, 就必须知道它的编码方式, 否则用错误的编码方式解
读, 就会出现乱码. 为什么电子邮件经常出现乱码?

就是由于发信人和收信人使用的编码
方式不一样.

能够想象, 假设有一种编码, 将世界上全部的符号都纳入当中.

最低0.47元/天解锁文章

weixin_44973055

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lua实现全角转半角

知识贮备：1.1 ASCII码我们知道, 在计算机内部, 全部的信息终于都表示为一个二进制的字符串. 每个二进制位(bit)有0和1两种状态, 因此八个二进制位就能够组合出 256种状态, 这被称为一个字节(byte). 也就是说, 一个字节一共能够用来表示256种不同的状态, 每个状态相应一个符号, 就是256个符号, 从 0000000到11111111.上个世纪60年代, 美国制...
复制链接

扫一扫