PHP 中转换 SGML 类语言为真实中文字符

昨天在用 PHP 在做一个数据采集项目的时候遇到了一个特殊的问题,就是中文被特殊的字符转化,用PHP采集过来还是保持原来的字符,但在浏览器会被编译成正常的中文字符显示在页面上,但你打开源代码查看时还是会保持原来的字符。

‘Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统’

上面是这个特殊的原形,经过网络的查找,说这一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。

 
 
  1. &#dddd;
  2. &#xhhhh;
  3. &#name;

以 HTML 为例,这三种转义序列都称作 character reference:

  • 前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。
  • 后一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。

从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。

通过以上资料的提示,我开始查找 PHP 有关 Unicode 方面的信息,所以昨天就找到这篇我收藏的《PHP实现Unicode和Utf-8编码的互相转换》可无奈的是依然无法解决我想直接在 PHP 中就将这字符直接转换成将中文输出的问题,于是今天上午我又换了一种思路去开始查找,最后终于让我找到了解决方法。

原来 PHP 自带就有两个函数来解决这个问题,这两个函数分别是 html_entity_decode 和 mb_convert_encoding。

至于这两个函数的用法,大家可以看 PHP 官方的手册就明白,这个不多说了,下面是两个函数解决这个问题的写法。

 
 
  1.  $string = 'Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统';
  2. $str1 = html_entity_decode($string);
  3. $str2 = mb_convert_encoding($string, 'utf-8', 'HTML-ENTITIES');

转载请注明:PKCMS博客 » PHP 中转换 SGML 类语言为真实中文字符

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值