字符编码的问题梳理

本文介绍了字符编码的基础概念,包括字符集、字符编码和常见的编码格式,如ASCII、GBK、Unicode和UTF-8。讨论了字符编码在不同格式间的转换问题,特别是GBK与UTF-8之间的转换需要正确解码避免乱码。字符编码对于计算机正确处理和显示各种文字至关重要。
摘要由CSDN通过智能技术生成

计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码";反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码。

字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

字符编码(Character Encoding):是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此字符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。

常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

总结如下:(也是根据历史的发展,依次产生不同的编码,顺应当时的需求)

1.ASCII:8bit,1byte

2.GBK:16bit,2byte windows默认

3.Unicode:32bit,4byte(没法用,只是一个标准)

4.utf-8 :mac默认(可变长度字符编码)

    英文:8bit,1byte

    欧洲:16bit,2byte

    中文:24bit,3byte

gbk和utf-8之间,是不能直接相互转化的。需要转化为文字,在进行编码对应的文字

gbk ----->文字 ------->uft-8

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值