php识别文件编码,并读出内容,对大文件也很有效率

<?php
/**
 * 检测文件编码
 * @param string $file_path 文件路径
 * @return string $filesize 默认为空,获取文件的全部内容,如果仅需要获取文件编码类型,获取前一百个字符即可,配合detectEncoding方法使用
 * @return string 返回文件内容,自动换行
 */

function fileToSrting($file_path, $filesize = '') {
    //判断文件路径中是否含有中文,如果有,那就对路径进行转码,如此才能识别
    if (preg_match("/[\x7f-\xff]/", $file_path)) {
        $file_path = iconv('UTF-8', 'GBK', $file_path);
    }
    if (file_exists($file_path)) {
        $fp = fopen($file_path, "r");
        if ($filesize === '') {
            $filesize = filesize($file_path);
        }
        $str = fread($fp, $filesize); //指定读取大小,这里默认把整个文件内容读取出来
        return $str = str_replace("\r\n", "<br />", $str);
    } else {
        die('文件路径错误!');
    }
}

/**
 * 获取文件编码类型
 * @param  string $file_path    文件路径
 * @param  string $filesize     需要获取的字符长度
 * @return string               返回字符编码
 */
function detectEncoding($file_path, $filesize = '1000') {
    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');
    $str = fileToSrting($file_path, $filesize);
    foreach ($list as $item) {
        $tmp = mb_convert_encoding($str, $item, $item);
        if (md5($tmp) == md5($str)) {
            return $item;
        }
    }
    return '遇到识别不出来的编码!';
}
/**
 *
 * 自动解析编码读入文件
 * @param string $file_path 文件路径
 * @param string $charset 读取编码
 * @return string 返回读取内容
 */
function autoRead($file_path, $filesize = '', $charset = 'UTF-8') {
    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');
    $str = fileToSrting($file_path, $filesize);
    foreach ($list as $item) {
        $tmp = mb_convert_encoding($str, $item, $item);
        if (md5($tmp) == md5($str)) {
            return mb_convert_encoding($str, $charset, $item);
        }
    }
    return "";
}

$file_path = "鸟哥的linux私房菜第二版包括基础和服务器.chm";
echo "<pre>";
$time1 = microtime(true);
print_r(detectEncoding($file_path, 10));
$time2 = microtime(true);
printf("识别编码时间为:%s 秒 \n", $time2 - $time1);
echo "\n";
print_r(autoRead($file));
echo "</pre>";
$time3 = microtime(true);
printf("将文件读出到字符串时间为:%s 秒 \n", $time3 - $time2);
exit;

读取文件尽量不要用file_get_contents,因为这个函数消耗内存很厉害,如果你的文件有个10M+,那服务器肯定就挂了!不信可以试试,本地试。如果非用不可,建议先判断一下文件大小,大于500kb就放弃掉。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SHUIPING_YANG

你的鼓励是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值