关于UTF-8的BOM

今天看学长发的后端开发规范,发现有很多不懂的

疑点1:PHP代码必须只使用不带BOM的UTF-8


经过度娘的解释,大概了解了一下下.


BOM:Byte Order Mark(字节顺序标记)

IMKOW NOTES:
1、在unicode诸编码中,字节顺序标记-BOM被用于标记编码高低位的顺序。

2、BOM是一个特殊的unicode字符。早期标准定义其为“零长度、非断行的空格”,但后期标准已不再这样规定。

3、utf16编码使用内容“FE FF”的BOM来标记big ending,即高位结束符;用“FF EE”标记 small ending,即低位结束符。

4、utf8使用内容为“EF BB BF ”的BOM,用于指示文本内容为utf8编码。windows下记事本等编辑器会自动添加这个BOM。在不支持或者未识别utf8编码的环境下,该BOM会 被解析成乱码“"”,导致问题。utf8编码的php源文件更是会因为bom而错误输出、影响header写入等等。

5、编程等严格环境,utf8编码的文档应保存为“无BOM”的格式。

如果在修改任何PHP文件后发生:

* 不能登入或者不能登出;

* 页顶出现一条空白; * 页顶出现错误警告;

* 其它不正常的情况。则多半是编辑器的问题。

本程序采用UTF-8编码。现在几乎所有的文本编辑软件都可以显示并编辑UTF-8编码的文件。但是很遗憾,其中很多软件的表现并不理想。 类似WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。它是一串隐藏的字符,用于让记事本等编辑器识别这个文件是否以UTF-8编码。对于一般的文件,这样并不会产生什么麻烦。但对于 PHP来说,BOM是个大麻烦。 PHP并不会忽略BOM,所以在读取、包含或者引用这些文件时,会把BOM作为该文件开头正文的一部分。根据嵌入式语言的特点,这串字符将被直接执行(显示)出来。由此造成即使页面的 top padding 设置为0,也无法让整个网页紧贴浏览器顶部,因为在html一开头有这3个字符呢! 最大的麻烦还不是这个。受COOKIE送出机制的限制,在这些文件开头已经有BOM的文件中,COOKIE无法送出(因为在COOKIE送出前PHP已经送出了文件头),所以登入和登出功能失效。一切依赖COOKIE、SESSION实现的功能全部无效。 因此,在编辑、更改任何文本文件时,请务必使用不会乱加BOM的编辑器。Linux下的编辑器应该都没有这个问题。WINDOWS下,请勿使用记事本等编辑器。推荐的编辑器是: Editplus 2.12版本以上; EmEditor; UltraEdit(需要取消‘添加BOM’的相关选项); Dreamweaver(需要取消‘添加BOM’的相关选项)等。 对于已经添加了BOM的文件,要取消的话,可以用以上编辑器另存一次。(Editplus需要先另存为gb,再另存为UTF-8。)


我用的sublime text 2 汉化版,保存编码的话:文件->保存编码->UTF-8



文章后面一部分来自:http://blog.sina.com.cn/s/blog_538dd06701000ad0.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值