常见字符编码

iso8859-1:
编码属于单字节编码,最多只能表示0——255的字符范围,主要在英文上应用

GBK/GB2312:
中文的国际编码,专门用来表示汉字,是双字节编码

unicode:
java中就是使用此编码方式,也是最标准的一种编码,是使用16进制表示的编码。但此编码不兼容iso8859-1编码

UTF:
由于unicode不支持iso8859-1编码,而且容易占用更多的空间,而且对于英文母也需要使用两个字节编码,这样使用unicode不便于传输和储存,因此产生了utf编码,utf编码兼容了iso8859-1编码,也可以用来表示所有语言字符,不过utf是不定长编码,每个字符的长度从1-6个字节不等,一般在中文网页中使用此编码,因为这样可以节省空间

造成乱码的根本原因:
1、程序使用的编码与本机的编码不统一
2、在网络中,客户端与服务端编码不统一(WEB开发中出现的乱码情况)

参考资源链接:[数据标注入门:存储与编码详解](https://wenku.csdn.net/doc/3brpx5td6c?utm_source=wenku_answer2doc_content) 选择正确的文本文件字符编码是数据存储和交换中非常关键的一步,尤其是对于数据标注领域,准确的字符编码能确保信息的正确解析和显示。在《数据标注入门:存储与编码详解》这份PPT课件中,详细讲解了字符编码的知识点,包括ASCII、GB2312、Unicode和UTF-8等常见的编码方式。其中,ASCII编码使用7位二进制数来表示字符,只能编码128个字符,主要是英文字符和一些控制字符。GB2312是对ASCII的扩展,使用了两位字节表示中文字符,共收录了6000多个汉字,但无法处理更复杂的中文字符集。Unicode设计用来包含所有字符集,使用至少16位来表示字符,理论上可以表示65536个字符。而UTF-8是Unicode的转换格式之一,采用可变长度的编码方式,兼容ASCII,又能编码几乎所有的字符集。在选择字符编码时,需要考虑数据的来源、目标用户的操作系统以及是否需要支持多语言等要素。例如,如果数据主要涉及中文,则使用UTF-8编码是最合适的,它能够保证文本的正确存储和兼容性。通过了解这些编码之间的差异,我们可以根据实际需求选择最合适的编码方式,从而避免数据损坏和信息丢失的问题。 参考资源链接:[数据标注入门:存储与编码详解](https://wenku.csdn.net/doc/3brpx5td6c?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值