一,str_split 如果utf8则会有部分汉字乱码,一般是分割节点。
二,preg_split , 会截取掉前面部分
三,preg_match_all 偏移量太小,需求需要几千个汉字为一个数组单元
preg_match('/^[a-zA-Z\x{4e00}-\x{9fa5}]+$/u', $str)
四,自定义:
function mb_str_split($str){
return preg_split('/(?<!^)(?!$)/u', $str ); //只能分割单个汉字,多个未找到方法
}
function mb_str_split($str,$count){
$len = ceil(mb_strlen($str)); //注意此处是否需要 *3 如果数据已被转为utf8则不需要,否则需要
$count_loop = ceil($len/$count);
$arr = array();
for ($i=0; $i <= $count_loop; $i += 1) {
$offset = $i * $count;
$con = mb_substr($str, $offset, $count,"utf8"); //注意第四个参数,否则偏移量还是按字节来算的
if (mb_strlen($con) > 1) {
$arr[] = $con;
}
}
return $arr;
}