最近在处理Cocoa NSString时, 遇到一些字符编码的问题

最新推荐文章于 2021-05-20 16:46:38 发布

澄海单挑狂

最新推荐文章于 2021-05-20 16:46:38 发布

阅读量408

点赞数

分类专栏：问题收集 iOS

iOS 同时被 2 个专栏收录

246 篇文章 0 订阅

订阅专栏

问题收集

37 篇文章 0 订阅

订阅专栏

最近在处理Cocoa NSString时, 遇到一些字符编码的问题, 从而引出一个遍历NSString每一个字符的"正确"方式! 很有趣.

NSString是UTF-16编码的, 也就是16位的unichar字符的序列. 所以, 一般遍历其每一个字符的方法就是:

for(int i=0; i<str.length; i++){
    unichar ch = [str characterAtIndex: i];
}

但是, 我们平常书写的字符, 并不全部都是用唯一的一个16位字符来表示, 而是有一部分用两个16位字符来表示, 这就是surrogate pairs的概念. 如果还是用上面的方法遍历字符串, 就会出现"断字". 例如图中这个Apple Color Emoji的"THUMBS UP SIGN"字符, 其实是用2个16位unichar来表示, 它的Unicode是U+1F44D, 用(U+D83D U+DC4D)两个字符来表示.

还好, NSString的rangeOfComposedCharacterSequencesForRange:和rangeOfComposedCharacterSequenceAtIndex:两个方法可以用来处理这种情况. 所以, 真正正确的遍历NSString的每一个字符的方法就是这样了:

NSRange range;
for(int i=0; i<str.length; i+=range.length){
    range = [str rangeOfComposedCharacterSequenceAtIndex:i];
    NSString *s = [str attributedSubstringFromRange:range];
}

一次遍历一个子串, 而不是遍历一个unichar了.

相关资料:

Wikipedia: UTF-16
Apple开发者文档: Characters and Grapheme Clusters

Posted by ideawu at 2013-06-12 12:26:39

//判断字符串为6～12位“字符” 
- (BOOL)isValidateName:(NSString *)name{
        NSUInteger  character = 0;
        for(int i=0; i< [name length];i++){
            int a = [name characterAtIndex:i];
            if( a > 0x4e00 && a < 0x9fff){ //判断是否为中文
                character +=2;
            }else{
                character +=1;
            }
        }

    if (character >=6 && character <=12) {
        return YES;
    }else{
        return NO;
    }

}

澄海单挑狂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最近在处理Cocoa NSString时, 遇到一些字符编码的问题

最近在处理Cocoa NSString时, 遇到一些字符编码的问题, 从而引出一个遍历NSString每一个字符的"正确"方式! 很有趣.NSString是UTF-16编码的, 也就是16位的unichar字符的序列. 所以, 一般遍历其每一个字符的方法就是:for(int i=0; i<str.length; i++){ unichar ch = [str characterAt
复制链接

扫一扫