php解决中英混排字符串截取

一拳超超人

于 2022-02-25 10:19:27 发布

阅读量772

点赞数

分类专栏：服务端

本文链接：https://blog.csdn.net/zalion/article/details/123126704

版权

PHP 字符串截取乱码处理 mb_substr ASCII编码

关键词由CSDN通过智能技术生成

服务端专栏收录该内容

41 篇文章 0 订阅

订阅专栏

当系统的字符存储设置了固定长度。

那存储的字符串如果过长，会造成程序异常或字符串被截断的情况。

如果通过php的系统函数substr()去截取字符串，遇到中文会造成截取异常(乱码字符)的情况。

改用mb_substr()去截取中英文，可以解决截取异常(乱码字符)的情况。

值得注意的是，substr()与mb_substr()的截取长度是有不同。

$str = '大家好-才是真的好';
echo substr($str,0,3);//出现截取异常，截取值：乱码字符
echo mb_substr($str,0,3);//截取正常，截取值：大家好

而且，现实中系统设置字符的固定长度，通常是以英文字符，每个字符占1位为准的。

然而中文字符的占用是3位长度。

为了解决这个问题，可以判断传入字符串的每个字符在ASCII编码内的区域，根据区域不同位置使用不同的截取长度。

所以，通过自定义函数体去解决这个问题即可。

function common_substr($sourcestr, $cutlength) {
   $returnstr = '';
   $i = 0;
   $n = 0;
   $str_length = strlen ( $sourcestr ); //字符串的字节数 
   while ( ($n < $cutlength) and ($i <= $str_length) ) {
    $temp_str = substr ( $sourcestr, $i, 1 );
    $ascnum = ord ( $temp_str ); //得到字符串中第$i位字符的ascii码 
    if ($ascnum >= 224) {//如果ascii位高与224，
        if($n+3>$cutlength){
            return $returnstr;
        }
        $returnstr = $returnstr . substr ( $sourcestr, $i, 3 ); //根据utf-8编码规范，将3个连续的字符计为单个字符  
        $i = $i + 3; //实际byte计为3
        $n +=3;
        //echo $n."\n";
    } elseif ($ascnum >= 192){ //如果ascii位高与192，
        if( $n+2>$cutlength){
            return $returnstr;
        }
        $returnstr = $returnstr . substr ( $sourcestr, $i, 2 ); //根据utf-8编码规范，将2个连续的字符计为单个字符 
        $i = $i + 2; //实际byte计为2
        $n +=2;
    } elseif ($ascnum >= 65 && $ascnum <= 90) {//如果是大写字母，
        $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
        $i = $i + 1; //实际的byte数仍计1个
        $n ++; //但考虑整体美观，大写字母计成一个高位字符
    }elseif ($ascnum >= 97 && $ascnum <= 122) {
        $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
        $i = $i + 1; //实际的byte数仍计1个
        $n ++; //但考虑整体美观，大写字母计成一个高位字符
    } else {//其他情况下，半角标点符号，
        $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
        $i = $i + 1; 
        $n = $n + 1;
    }
   }
   return $returnstr;
}

通过ASCII编码的规则，去判断每个字符在什么位置，去做定长截取。最后在拼接字符串。

这样截取的字符串，既满足了字符串限定的长度，也解决了截取过程中出现乱码字符的问题。

从而解决程序运行过程中出现的问题。