在c中处理utf-8

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

 

看代码

size_t utf_length(u_char *p, size_t n)                                    // u_char*p 指向一个可能包含utf-8的字符串,n = strlen(p)

{
    u_char      c;
    size_t      len;
    u_int32_t i;

    for (len = 0, i = 0; i < n; len++, i++) {

        c = p[i];

        if (c < 0x80) {      // 0x80 的2进制度(10000000),单字节的时候,最大的编码是(01111111), 也就是127,也就是ascii
            continue;
        }

        if (c >= 0xc0) {   //根据utf-8的第2条规则, 如果是2个字节编码成一个符号的时候,那么应该是(110*****,10******)

/*如果是3个字节编码成一个符号, 那么应该是(1110****,10******,10******)

   如果是4个字节编码成一个符号, 那么应该是(11110***,10******, 10******,10******)
            for (c <<= 1; c & 0x80; c <<= 1) {  /*for的用法,第一个代表赋初始值, 第2个判断, 第3个赋值, 第2次循环的时候,第一个c<<1 已经不用了 */
                i++; //跳过的个数
            }

            continue;
        }

        /* invalid utf */

        return n;
    }

    return len;
}

 

知道以上的规律, 那么不管是拷贝也好, 显示也好, 基本的原理都是一样的

下面是utf-8copy函数

 

u_char * utf_cpystrn(u_char *dst, u_char *src, size_t n)  // n 代表utf-8的符号个数,如果src = “博客”, 那么n = 2
{
    u_char  c;

    if (n == 0) {
        return dst;
    }

    for ( /* void */ ; --n; dst++, src++) {

        c = *src;
        *dst = c;

        if (c < 0x80) {
            if (*dst != '/0') {
                continue;
            }

            return dst;
        }

        if (c >= 0xc0) {
            for (c <<= 1; c & 0x80; c <<= 1) {
               *++dst = *++src;
            }

            continue;
        }

        /* invalid utf */
    }

    *dst = '/0';

    return dst;
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值