【整理】php与字符有关的一些操作

2010年07月02日 星期五 20:14

由于某度众所周知的铜臭举动,让我搬离写了5年的渣度空间,准备把技术性的文章定在CSDN了。这些都是文章备份。勿怪。。

鉴于最近有些抓取机器和抄袭者,把标题的【原】字都复制,我不得不声明:本文为 yukon12345原创,转载请注明出处http://blog.csdn.net/yukon12345



大多数内容来源于网络,yukon12345编辑整理


上一篇写了点字符概念,下面来贴点关于字符的操作。
php获取字符串的实际字符集编码:
<?php
$str="中";
echo strlen($str)."<br>"; //所占实际字节数。汉字的长度根据页面编码而定。gbk编码为2,utf-8编码为3
$str=str_split($str); //将字符编码按字节拆分。
$bytes='';
foreach($str as $value)
{
$bytes.=decbin(ord($value)); //转换成2进制编码

}
echo $bytes; //(中 字utf8页面)输出为:111001001011100010101101
?>



有些人可能对utf8和unicode编码云里雾里,建议看看上一篇。



php将utf8格式字符转为html编码格式
html编码实际上就是一种10进制的unicode编码格式。比如"<"的unicode十进制编码为60,html编码就为&#60;。一般使用html格式来防止一些xss攻击脚本。

程序:

function utf2html($char) {
//将一个字转换成html编码。本文件应用utf-8编码!
$arr = str_split($char);
//将这个字符拆分成字节数组。比如"你"
//此时,$arr应类似array(228, 189, 160)
//定义一个空字符串存储
$bin_str = '';
//转成数字再转成二进制字符串,最后联合起来。
foreach ($arr as $value)
$bin_str .= decbin(ord($value));
//此时,$bin_str应类似11100100 10111101 10100000,如果是汉字"你"
//正则截取.根据utf-8格式转成unicode编码
$bin_str = preg_replace('/^.{4}(.{4}).{2}(.{6}).{2}(.{6})$/', '$1$2$3', $bin_str);
//此时, $bin_str应类似0100111101100000,如果是汉字"你"

return "&#" . bindec($bin_str) . ";"; //返回类似你,汉字"你"
//return dechex(bindec($bin_str)); //如想返回十六进制4f60,用这句
}
echo utf2html("你");
//打开浏览器,查看源代码,输出的是“你”的html编码

php按字符分隔字符串。而不是字节数
普通的substr在有非英语出现的时候会按字节数分割字符串,而不是字符。
如:echo substr("含有汉字的ASD",0,3); //输出乱码
下面是分割utf8格式的字符串:按字符分割。(需将文件保存为utf8编码)
/*
* UTF-8字符串截取
* $str 要截取的字串
* $start 截取起始位置
* $length 截取长度
*/
function utf8_substr($str,$start,$length) {
$restr = '';
$j = 0;
$end = $length + $start - 1;
$plen = strlen($str);
for($i=0;$i<$plen;$i++) {
$restr .= ord($str[$i])>127 ? $str[$i].$str[++$i].$str[++$i] : $str[$i];
$j++;
if ($j < $start){$restr = '';}
if ($j >= $end){break;}
}
$restr .='';
return $restr;
}
$str = 'μνοζ我国asddf';
echo $str;
echo '<br>';
echo utf8_substr($str,0,6);
echo '<br>';


输出:
μνοζ我国asddf
μνοζ我国a

截取定长的gbk或gb2312编码的字符串(需将文件保存为gbk/gb2312编码或者ansi)

<?php
header("Content-Type:text/html;charset=gbk");
$str="这个字符好长呀,^_^";
$Short_Str=showShort($str,4);//截取前面4个汉字,结果为:这个字符...
Echo "$Short_Str";
Function csubstr($str,$start,$len)
{
$strlen=strlen($str);
$clen=0;
for($i=0;$i<$strlen;$i++,$clen++)
{
if ($clen>=$start+$len)
break;
if(ord(substr($str,$i,1))>0xa0)
{
if ($clen>=$start)
$tmpstr.=substr($str,$i,2);
$i++;
}
else
{
if ($clen>=$start)
$tmpstr.=substr($str,$i,1);
}
}

return $tmpstr;
}
Function showShort($str,$len)
{
$tempstr = csubstr($str,0,$len);
if ($str<>$tempstr)
$tempstr .= "..."; //要以什么结尾,修改这里就可以.

return $tempstr;
}
?>


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值