Java 遍历字符串和截取码点

wkk_ly

已于 2023-10-17 17:33:35 修改

阅读量274

点赞数

文章标签： java 开发语言

于 2023-10-17 17:26:48 首次发布

本文链接：https://blog.csdn.net/wkk_ly/article/details/133888974

版权

Java 遍历字符串和截取码点

String 类官方说明介绍

The class String includes methods for examining individual characters of the sequence,
 for comparing strings, for searching strings, for extracting substrings, 
 and for creating a copy of a string with all characters translated to uppercase or to lowercase. 
 Case mapping is based on the Unicode Standard version specified by the Character class.

A String represents a string in the UTF-16 format in which supplementary characters 
are represented by surrogate pairs(see the section Unicode Character Representations in the Character class for more information).
 Index values refer to char code units, so a supplementary character uses two positions in a String.

Java String 是使用 “UTF-16”编码的字符串，每个字符（char）为16位，占据2个字节，

UTF-16

Unicode的编码空间从U+0000到U+10FFFF，共有1,112,064个码位（code point）可用来映射字符。Unicode的编码空间可以划分为17个平面（plane），每个平面包含216（65,536）个码位。17个平面的码位可表示为从U+xx0000到U+xxFFFF，其中xx表示十六进制值从0016到1016，共计17个平面。第一个平面称为基本多语言平面（Basic Multilingual Plane, BMP），或称第零平面（Plane 0），其他平面称为辅助平面（Supplementary Planes）。基本多语言平面内，从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-16就利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。

从U+0000至U+D7FF以及从U+E000至U+FFFF的码位

第一个Unicode平面（码位从U+0000至U+FFFF）包含了最常用的字符。该平面被称为基本多语言平面，缩写为BMP（Basic Multilingual Plane，BMP）。UTF-16与UCS-2编码这个范围内的码位为16比特长的单个码元，数值等价于对应的码位。BMP中的这些码位是仅有的可以在UCS-2中表示的码位。

从U+10000到U+10FFFF的码位

辅助平面（Supplementary Planes）中的码位，在UTF-16中被编码为一对16比特长的码元（即32位元，4字节），称作代理对（Surrogate Pair）

java实现

基本多语言平面（BMP）（U+0000- U+FFFF） java 使用一个字符 char 来表示，
辅助平面（Supplementary Planes）（U+10000-U+10FFFF），java称之为 supplementary characters（增补字符），其用一对字符（2个字符）来表示，第一个字符表示高位，第二个字符表示低位

总结

所以在java中每个字符 char 可能代表一个码位，也可能代表增补字符中一个 编码单元 其单独拿出来是毫无意义的，

由此在java中遍历字符串的正确做法是根据码位遍历，而不是根据字符遍历

方式一
    val str = "你好上海市😄😭😭🐮122"
    val toArray = str.codePoints().toArray()
    toArray.forEach {
        print("${String(Character.toChars(it))},")
        //do something...
    }
    
    
方式二

    val str = "你好上海市😄😭😭🐮122"
    var offset = 0
    while (offset < str.length) {
        val codePointAt = str.codePointAt(offset)
        offset += Character.charCount(codePointAt)
        print("${String(Character.toChars(codePointAt))},")
        //do something...
    }
    
方式三

截取字符串时也应该是根据码位截取，而非根据字符截取


/**
 * @param str 要截取的字符串
 * @param count 要截取的码点
 */
fun codePointSubstr(str:String,count:Int):String{
    val codePointsCount =str.codePointCount(0,str.length)
    if (codePointsCount<=count) return str
    return str.substring(0,str.offsetByCodePoints(0,count))
}

参考链接：
UTF-8 维基百科