String源码详解

要搞好学习哟

已于 2022-03-09 16:13:04 修改

阅读量1.8k

点赞数 1

分类专栏： JDK8源码阅读文章标签： java 开发语言后端

于 2021-11-12 21:56:57 首次发布

本文链接：https://blog.csdn.net/weixin_45841729/article/details/121294213

版权

JDK8源码阅读专栏收录该内容

28 篇文章 2 订阅

订阅专栏

一、继承关系图

二、CharSequence接口

CharSequence 是一个可读的字符值序列。此接口提供对许多不同类型字符序列的统一只读访问。 char 值表示基本多语言平面 (BMP) 中的字符或代理（使用UTF-16编码）。
它没有实现equals和hashCode方法，留给实现类去实现，所以官方文档说我们不能将任意实现CharSequence接口的实现类作为set集合的元素或map映射中的键。

1、接口结构如下：

在这里插入图片描述

简单方法介绍：
length: 返回字符序列长度
charAt：返回特定位置的字符
subSequence：返回从start开始到end-1的子字符序列
toString：返回和当前字符串序列顺序相同的字符串
chars和codePoints方法是JDK8中出现的新特性Stream流API，我之后会在Stream流源码解析中去介绍它，现在只需要知道是返回一个字符int流和码点int流即可。

三、Comparable<T>接口

里面只有一个方法

public int compareTo(T o);

将此对象与指定的对象进行比较以进行排序。当此对象小于、等于或大于指定对象时，返回一个负整数、零或正整数。

实现者要满足如下条件：
sgn(x.compareTo(y)) == -sgn(y.compareTo(x))
(x.compareTo(y)>0 && y.compareTo(z)>0) ===>>> x.compareTo(z)>0
x.compareTo(y)==0 ===>>> sgn(x.compareTo(z)) == sgn(y.compareTo(z))
强烈建议：
(x.compareTo(y)==0) == (x.equals(y))

三、String类

1、属性

/** The value is used for character storage. */
private final char value[];

/** Cache the hash code for the string */
private int hash; // Default to 0

/** use serialVersionUID from JDK 1.0.2 for interoperability */
private static final long serialVersionUID = -6849794470754667710L;

注意这里value数组是使用final关键字修饰的，这并不代表用final关键字修饰的数组中的元素是不可以改变的，只是说数组的首地址是不可以改变的，但是在String类中并没有提供修改value元素的方法，所以说在String中value的值是不可以改变的。
由于value中元素的值是不可以改变的所以我们为了高效，把字符串的hash值缓存在hash变量中。
在String中的value字符是使用UTF-16进行字符编码的。

2、构造方法

在这里插入图片描述

public String() {
    this.value = new char[0];
}

由于字符串value值不可变，所以这个构造方法屁用没有。但是它和""调用equals方法比较是相等的。

public String(String original) {
    this.value = original.value;
    this.hash = original.hash;
}

由于original字符串的value也是不可变的，所以我们可以直接赋值而毫无心理压力。

public String(char value[]) {
    this.value = Arrays.copyOf(value, value.length);
}

由于形参value中元素的值很可能被外界修改，导致String中的value跟着修改，这样我们是不允许的，所以使用Arrays.copyOf方法来复制一个相同内容的字符数组。

public String(char value[], int offset, int count) {
	if (offset < 0) {
	    throw new StringIndexOutOfBoundsException(offset);
	}
	if (count < 0) {
	    throw new StringIndexOutOfBoundsException(count);
	}
	// Note: offset or count might be near -1>>>1.
	if (offset > value.length - count) {
	    throw new StringIndexOutOfBoundsException(offset + count);
	}
	this.value = Arrays.copyOfRange(value, offset, offset+count);
}

同样地，我们也使用Arrays.copyOfRange来复制一份。其中offset是开始下标，count是长度。

public String(int[] codePoints, int offset, int count) {
     if (offset < 0) {
         throw new StringIndexOutOfBoundsException(offset);
     }
     if (count < 0) {
         throw new StringIndexOutOfBoundsException(count);
     }
     // Note: offset or count might be near -1>>>1.
     if (offset > codePoints.length - count) {
         throw new StringIndexOutOfBoundsException(offset + count);
     }

     final int end = offset + count;

     // Pass 1: Compute precise size of char[]
     int n = count;
     for (int i = offset; i < end; i++) {
         int c = codePoints[i];
         if (Character.isBmpCodePoint(c))
             continue;
         else if (Character.isValidCodePoint(c))
             n++;
         else throw new IllegalArgumentException(Integer.toString(c));
     }

     // Pass 2: Allocate and fill in char[]
     final char[] v = new char[n];

     for (int i = offset, j = 0; i < end; i++, j++) {
         int c = codePoints[i];
         if (Character.isBmpCodePoint(c))
             v[j] = (char)c;
         else
             Character.toSurrogates(c, v, j++);
     }

     this.value = v;
 }
 
public static boolean isBmpCodePoint(int codePoint) {
    return codePoint >>> 16 == 0;
    // Optimized form of:
    //     codePoint >= MIN_VALUE && codePoint <= MAX_VALUE
    // We consistently use logical shift (>>>) to facilitate
    // additional runtime optimizations.
}

public static boolean isValidCodePoint(int codePoint) {
    // Optimized form of:
    //     codePoint >= MIN_CODE_POINT && codePoint <= MAX_CODE_POINT
    int plane = codePoint >>> 16;
    return plane < ((MAX_CODE_POINT + 1) >>> 16);
}

static void toSurrogates(int codePoint, char[] dst, int index) {
    // We write elements "backwards" to guarantee all-or-nothing
    dst[index+1] = lowSurrogate(codePoint);
    dst[index] = highSurrogate(codePoint);
}

public static char lowSurrogate(int codePoint) {
    return (char) ((codePoint & 0x3ff) + MIN_LOW_SURROGATE);
}

public static char highSurrogate(int codePoint) {
    return (char) ((codePoint >>> 10)
        + (MIN_HIGH_SURROGATE - (MIN_SUPPLEMENTARY_CODE_POINT >>> 10)));
}

我们首先计算需要多少个字符来存储这些码点：
Character.isBmpCodePoint(c)方法是将Unicode码点右移16位来判断是否在基本平面上，具体什么是基本平面和辅助平面可以参考我之后推出的Unicode编码篇，若在基本平面上，则正好是两个字节，我们进入下一次循环。如果码点在不在基本平面上，则调用isValidCodePoint方法将当前码点右移16位与最大码点 + 1后右移16位比较，若小于最大码点则返回ture，表示这个码点是合理的，但是它不在基本平面，我们就需要用四个字节来存储，所以字符数加一。
之后，我们将码点转为字符存储在v字符数组中：
若码点在基本平面上，我们直接将int强转为char进行存储。若不在基本平面上，则把码点分为高位和低位，高位用Character中的char highSurrogate(int codePoint)方法将转换后的字符存储在v[j]位置，低位用Character中的char lowSurrogate(int codePoint)方法将转换后的字符存储在v[j + 1]位置，高位和低位调用Character 类中的 int toCodePoint(char high, char low)会返回完整的码点。

public String(byte bytes[], int offset, int length, String charsetName)
        throws UnsupportedEncodingException {
    if (charsetName == null)
        throw new NullPointerException("charsetName");
    checkBounds(bytes, offset, length);
    this.value = StringCoding.decode(charsetName, bytes, offset, length);
}

checkBounds方法检查offset，length等等是否超过bytes范围。
这里有一个重要的方法，decode是如何将字节转换为字符的呢，我们来看一下源码

static char[] decode(String charsetName, byte[] ba, int off, int len)
    throws UnsupportedEncodingException
{
    StringDecoder sd = deref(decoder);
    String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;
    if ((sd == null) || !(csn.equals(sd.requestedCharsetName())
                          || csn.equals(sd.charsetName()))) {
        sd = null;
        try {
            Charset cs = lookupCharset(csn);
            if (cs != null)
                sd = new StringDecoder(cs, csn);
        } catch (IllegalCharsetNameException x) {}
        if (sd == null)
            throw new UnsupportedEncodingException(csn);
        set(decoder, sd);
    }
    return sd.decode(ba, off, len);
}

deref就是从当前ThreadLocal中取出一个StringDecoder字符解码器，可能有，可能没有。当sd为空或者所需字符集与sd中Charset字符集名不同时设置sd = null，并寻找一个字符名称为csn的字符映射Charset，若找到一个Charset则新创建一个字符解码器，并将sd存入当前线程池中ThreadLocal中，最后返回解码后的结果，具体的解码过程我们就不必深入研究了（这个不用老子懂，嘿嘿嘿）。

public String(byte bytes[], String charsetName)
        throws UnsupportedEncodingException {
    this(bytes, 0, bytes.length, charsetName);
}
public String(byte bytes[], Charset charset) {
    this(bytes, 0, bytes.length, charset);
}
public String(byte bytes[], int offset, int length) {
    checkBounds(bytes, offset, length);
    this.value = StringCoding.decode(bytes, offset, length);
}
public String(byte bytes[]) {
    this(bytes, 0, bytes.length);
}

同上

public String(StringBuffer buffer) {
    synchronized(buffer) {
        this.value = Arrays.copyOf(buffer.getValue(), buffer.length());
    }
}
public String(StringBuilder builder) {
    this.value = Arrays.copyOf(builder.getValue(), builder.length());
}

不过多介绍，之后写StringBuffer和StringBuilder源码的时候我会介绍。这里只需要注意一点，就是它在复制stringBuffer的时候使用synchronized关键字锁住复制过程，这是因为StringBuffer是保证线程安全的，我们不能在拷贝的时候让别的线程对它进行修改，这样就会造成数据不一致了。

3、方法介绍

public int length() {
    return value.length;
}

注意这里返回的是不可变字符数组value[]的长度，也就是Unicode码元数量，但是辅助字符占两个码元，这就导致了例如一个恶魔的小表情😈的length()为2，不信的可以试一试。

public boolean isEmpty() {
    return value.length == 0;
}
public char charAt(int index) {
    if ((index < 0) || (index >= value.length)) {
        throw new StringIndexOutOfBoundsException(index);
    }
    return value[index];
}

不解释

public int codePointAt(int index) {
    if ((index < 0) || (index >= value.length)) {
        throw new StringIndexOutOfBoundsException(index);
    }
    return Character.codePointAtImpl(value, index, value.length);
}

返回下标为index处的码点（从0开始）。先判断是否越界，之后调用codePointAtImpl方法获得码点，这里codePointAtImpl方法是如何做的呢，我们来看一下

// throws ArrayIndexOutOfBoundsException if index out of bounds
static int codePointAtImpl(char[] a, int index, int limit) {
    char c1 = a[index];
    if (isHighSurrogate(c1) && ++index < limit) {
        char c2 = a[index];
        if (isLowSurrogate(c2)) {
            return toCodePoint(c1, c2);
        }
    }
    return c1;
}

首先判断index位置的字符是不是辅助平面字符的高位码点，若是则将下一位低位码点使用toCodePoint方法合并成一个完整的辅助平面码点（但是如果index下标处是一个低位码点，那么结果就会出乎你的意料，我尝试了几个辅助平面的表情，我将他们低位码点当作参数传入String构造器后打印出的结果都是一个问号？）。

public int codePointBefore(int index) {
    int i = index - 1;
    if ((i < 0) || (i >= value.length)) {
        throw new StringIndexOutOfBoundsException(index);
    }
    return Character.codePointBeforeImpl(value, index, 0);
}
// throws ArrayIndexOutOfBoundsException if index-1 out of bounds
static int codePointBeforeImpl(char[] a, int index, int start) {
    char c2 = a[--index];
    if (isLowSurrogate(c2) && index > start) {
        char c1 = a[--index];
        if (isHighSurrogate(c1)) {
            return toCodePoint(c1, c2);
        }
    }
    return c2;
}

这个方法和上面的原理是一样的，只不过它是返回当前index上一个下标的码点。

public int codePointCount(int beginIndex, int endIndex) {
    if (beginIndex < 0 || endIndex > value.length || beginIndex > endIndex) {
        throw new IndexOutOfBoundsException();
    }
    return Character.codePointCountImpl(value, beginIndex, endIndex - beginIndex);
}

这个方法是返回从beginIndex开始到endIndex-1的码点数量。重要的是codePointCountImpl方法。

static int codePointCountImpl(char[] a, int offset, int count) {
    int endIndex = offset + count;
    int n = count;
    for (int i = offset; i < endIndex; ) {
        if (isHighSurrogate(a[i++]) && i < endIndex &&
            isLowSurrogate(a[i])) {
            n--;
            i++;
        }
    }
    return n;
}

这个方法注意给isHighSurrogate(a[i++])方法传入的实参其实是a[i]，当传入之后才会加一，到isLowSurrogate(a[i])方法时就是i+1了，基本思想是每遇到一个辅助平面码点数量就减一。

public int offsetByCodePoints(int index, int codePointOffset) {
    if (index < 0 || index > value.length) {
        throw new IndexOutOfBoundsException();
    }
    return Character.offsetByCodePointsImpl(value, 0, value.length,
            index, codePointOffset);
}

这个方法将返回从index开始偏移codePointOffset个码点的字符数组下标。重要的是offsetByCodePointsImpl方法

static int offsetByCodePointsImpl(char[]a, int start, int count,
                                  int index, int codePointOffset) {
    int x = index;
    if (codePointOffset >= 0) {
        int limit = start + count;
        int i;
        for (i = 0; x < limit && i < codePointOffset; i++) {
            if (isHighSurrogate(a[x++]) && x < limit &&
                isLowSurrogate(a[x])) {
                x++;
            }
        }
        if (i < codePointOffset) {
            throw new IndexOutOfBoundsException();
        }
    } else {
        int i;
        for (i = codePointOffset; x > start && i < 0; i++) {
            if (isLowSurrogate(a[--x]) && x > start &&
                isHighSurrogate(a[x-1])) {
                x--;
            }
        }
        if (i < 0) {
            throw new IndexOutOfBoundsException();
        }
    }
    return x;
}

这个我就不一一解释了，和上面的思路都差不多的。

/**
 * Copy characters from this string into dst starting at dstBegin.
 * This method doesn't perform any range checking.
 */
void getChars(char dst[], int dstBegin) {
    System.arraycopy(value, 0, dst, dstBegin, value.length);
}

调用native方法arraycopy，将当前字符串中的字符数组复制到从dstBegin开始的dest中。此方法没有做任何不合法情况的判断，比如dest长度不够等等。

public void getChars(int srcBegin, int srcEnd, char dst[], int dstBegin) {
    if (srcBegin < 0) {
        throw new StringIndexOutOfBoundsException(srcBegin);
    }
    if (srcEnd > value.length) {
        throw new StringIndexOutOfBoundsException(srcEnd);
    }
    if (srcBegin > srcEnd) {
        throw new StringIndexOutOfBoundsException(srcEnd - srcBegin);
    }
    System.arraycopy(value, srcBegin, dst, dstBegin, srcEnd - srcBegin);
}

这个方法和上面一样，就是规定了源字符的起止位置并加了一些条件判断。

public byte[] getBytes(String charsetName)
        throws UnsupportedEncodingException {
    if (charsetName == null) throw new NullPointerException();
    return StringCoding.encode(charsetName, value, 0, value.length);
}
public byte[] getBytes(Charset charset) {
    if (charset == null) throw new NullPointerException();
    return StringCoding.encode(charset, value, 0, value.length);
}
public byte[] getBytes() {
    return StringCoding.encode(value, 0, value.length);
}

StringCoding.encode亲切吧，我们刚刚看过的呀，嘿嘿，那这几个方法是不是一目了然了！！！

public boolean equals(Object anObject) {
    if (this == anObject) {
        return true;
    }
    if (anObject instanceof String) {
        String anotherString = (String)anObject;
        int n = value.length;
        if (n == anotherString.value.length) {
            char v1[] = value;
            char v2[] = anotherString.value;
            int i = 0;
            while (n-- != 0) {
                if (v1[i] != v2[i])
                    return false;
                i++;
            }
            return true;
        }
    }
    return false;
}

还记不记得重写equals要满足的6个条件，自反性，对称性，传递性，一致性，null一定为false，类型不同一定为false。重温了equals重写要求，我们来看一看String是如何重写equals方法的吧！！！！
它首先判断引用地址是否相同，相同肯定相等啦，若不同判断类型是否相同，不同直接返回false。我们再看if条件里面的语句，首先判断长度是否相等，之后一个一个字符进行比较是否相等，若全都先等则返回ture，通俗来说这里的equals比较的是两个字符串中的值是否相等。

public boolean contentEquals(StringBuffer sb) {
    return contentEquals((CharSequence)sb);
}

public boolean contentEquals(CharSequence cs) {
    // Argument is a StringBuffer, StringBuilder
    if (cs instanceof AbstractStringBuilder) {
        if (cs instanceof StringBuffer) {
            synchronized(cs) {
               return nonSyncContentEquals((AbstractStringBuilder)cs);
            }
        } else {
            return nonSyncContentEquals((AbstractStringBuilder)cs);
        }
    }
    // Argument is a String
    if (cs instanceof String) {
        return equals(cs);
    }
    // Argument is a generic CharSequence
    char v1[] = value;
    int n = v1.length;
    if (n != cs.length()) {
        return false;
    }
    for (int i = 0; i < n; i++) {
        if (v1[i] != cs.charAt(i)) {
            return false;
        }
    }
    return true;
}
    
private boolean nonSyncContentEquals(AbstractStringBuilder sb) {
	char v1[] = value;
	char v2[] = sb.getValue();
	int n = v1.length;
	if (n != sb.length()) {
	    return false;
	}
	for (int i = 0; i < n; i++) {
	    if (v1[i] != v2[i]) {
	        return false;
	    }
	}
	return true;
}

这个我就不详细介绍了，和equals差不多，只不过是比较字符序列的内容是否相同。

public boolean equalsIgnoreCase(String anotherString) {
    return (this == anotherString) ? true
            : (anotherString != null)
            && (anotherString.value.length == value.length)
            && regionMatches(true, 0, anotherString, 0, value.length);
}

public boolean regionMatches(boolean ignoreCase, int toffset,
        String other, int ooffset, int len) {
    char ta[] = value;
    int to = toffset;
    char pa[] = other.value;
    int po = ooffset;
    // Note: toffset, ooffset, or len might be near -1>>>1.
    if ((ooffset < 0) || (toffset < 0)
            || (toffset > (long)value.length - len)
            || (ooffset > (long)other.value.length - len)) {
        return false;
    }
    while (len-- > 0) {
        char c1 = ta[to++];
        char c2 = pa[po++];
        if (c1 == c2) {
            continue;
        }
        if (ignoreCase) {
            // If characters don't match but case may be ignored,
            // try converting both characters to uppercase.
            // If the results match, then the comparison scan should
            // continue.
            char u1 = Character.toUpperCase(c1);
            char u2 = Character.toUpperCase(c2);
            if (u1 == u2) {
                continue;
            }
            // Unfortunately, conversion to uppercase does not work properly
            // for the Georgian alphabet, which has strange rules about case
            // conversion.  So we need to make one last check before
            // exiting.
            if (Character.toLowerCase(u1) == Character.toLowerCase(u2)) {
                continue;
            }
        }
        return false;
    }
    return true;
}

这个忽略大小写的比较首先做了一些基本的判断，防止范围出现错误等，值得注意的是它把每个字符都转为大写比较不相等之后又转为小写再次比较一次，这是因为在文档介绍说Georgian 字母表中大小写的转换有奇奇怪怪的规则，所以我们需要在退出前做最后一次检查。

public int compareTo(String anotherString) {
    int len1 = value.length;
    int len2 = anotherString.value.length;
    int lim = Math.min(len1, len2);
    char v1[] = value;
    char v2[] = anotherString.value;

    int k = 0;
    while (k < lim) {
        char c1 = v1[k];
        char c2 = v2[k];
        if (c1 != c2) {
            return c1 - c2;
        }
        k++;
    }
    return len1 - len2;
}

循环两者最小长度次来比较c1 和 c2，若最小长度内两者都相等则返回len1 - len2。

public int compareToIgnoreCase(String str) {
    return CASE_INSENSITIVE_ORDER.compare(this, str);
}

public static final Comparator<String> CASE_INSENSITIVE_ORDER
                                    = new CaseInsensitiveComparator();
                                     
private static class CaseInsensitiveComparator
        implements Comparator<String>, java.io.Serializable {
    // use serialVersionUID from JDK 1.2.2 for interoperability
    private static final long serialVersionUID = 8575799808933029326L;

    public int compare(String s1, String s2) {
        int n1 = s1.length();
        int n2 = s2.length();
        int min = Math.min(n1, n2);
        for (int i = 0; i < min; i++) {
            char c1 = s1.charAt(i);
            char c2 = s2.charAt(i);
            if (c1 != c2) {
                c1 = Character.toUpperCase(c1);
                c2 = Character.toUpperCase(c2);
                if (c1 != c2) {
                    c1 = Character.toLowerCase(c1);
                    c2 = Character.toLowerCase(c2);
                    if (c1 != c2) {
                        // No overflow because of numeric promotion
                        return c1 - c2;
                    }
                }
            }
        }
        return n1 - n2;
    }

    /** Replaces the de-serialized object. */
    private Object readResolve() { return CASE_INSENSITIVE_ORDER; }
}

忽略大小写的比较，这里它也是做了两次比较，一次转大写，一次转小写。

public boolean startsWith(String prefix, int toffset) {
    char ta[] = value;
    int to = toffset;
    char pa[] = prefix.value;
    int po = 0;
    int pc = prefix.value.length;
    // Note: toffset might be near -1>>>1.
    if ((toffset < 0) || (toffset > value.length - pc)) {
        return false;
    }
    while (--pc >= 0) {
        if (ta[to++] != pa[po++]) {
            return false;
        }
    }
    return true;
}

public boolean startsWith(String prefix) {
    return startsWith(prefix, 0);
}

public boolean endsWith(String suffix) {
    return startsWith(suffix, value.length - suffix.value.length);
}

我都感觉没有说下去的必要了，结果看到了hashCode()方法，这可是个重头戏，嘿嘿，来详细介绍以下

public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        char val[] = value;

        for (int i = 0; i < value.length; i++) {
            h = 31 * h + val[i];
        }
        hash = h;
    }
    return h;
}

hashCode的存在主要是用于查找的快捷性，如Hashtable，HashMap等，hashCode是用来在散列存储结构中确定对象的存储地址的，hashCode有三个注意点，一是如果两个对象相同，就是适用于equals(java.lang.Object) 方法，那么这两个对象的hashCode一定要相同；二是如果对象的equals方法被重写，那么对象的hashCode也尽量重写，并且产生hashCode使用的对象，一定要和equals方法中使用的一致，否则就会违反上面提到的第2点；三是两个对象的hashCode相同，并不一定表示两个对象就相同，也就是不一定适用于equals(java.lang.Object) 方法，只能够说明这两个对象在散列存储结构中，如Hashtable，他们“存放在同一个篮子里”。

下面我们来步入主题，这个方法首先判断hash缓存中用没有值，如果没有值而且字符串不为空字符串，就需要进行哈希计算，（怎么字数一多csdn越写越卡呢，能不能优化一下！！！！），它这里的hash算法是h = 31 * h + val[i];hash表的范围就是int的范围（负的2的31次幂到正的2的32次幂）。看起来这个算法好简单呀，的确简单，但是你有没有考虑过为什么它采用这种算法呢？首先，一般的hash算法都需要取模保证映射的值在给定的区间内，但是String中的hashCode没有这么做是因为java中的int类型会将超过int范围的数自动截取低16位部分；其次，它为什么会选择使用31呢，主要有两点原因一是31 是一个素数，与素数相乘得到的结果比其他方式更容易产生唯一性，二是Java 中如果相乘的数字太大会导致内存溢出问题，从而导致数据丢失，同时在计算机中一个数x乘以31等于(x << 5) - x。

public int indexOf(int ch) {
    return indexOf(ch, 0);
}

public int indexOf(int ch, int fromIndex) {
    final int max = value.length;
    if (fromIndex < 0) {
        fromIndex = 0;
    } else if (fromIndex >= max) {
        // Note: fromIndex might be near -1>>>1.
        return -1;
    }

    if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
        // handle most cases here (ch is a BMP code point or a
        // negative value (invalid code point))
        final char[] value = this.value;
        for (int i = fromIndex; i < max; i++) {
            if (value[i] == ch) {
                return i;
            }
        }
        return -1;
    } else {
        return indexOfSupplementary(ch, fromIndex);
    }
}

/**
 * Handles (rare) calls of indexOf with a supplementary character.
 */
private int indexOfSupplementary(int ch, int fromIndex) {
    if (Character.isValidCodePoint(ch)) {
        final char[] value = this.value;
        final char hi = Character.highSurrogate(ch);
        final char lo = Character.lowSurrogate(ch);
        final int max = value.length - 1;
        for (int i = fromIndex; i < max; i++) {
            if (value[i] == hi && value[i + 1] == lo) {
                return i;
            }
        }
    }
    return -1;
}

返回此字符串中第一次出现指定字符的索引。进入方法首先进行范围判断，之后判断给定码点是否在基本平面上，若在则遍历循环即可，若是辅助平面上，调用indexOfSupplementary方法，这个方法将给定码点拆分成高位和低位，之后再循环判断即可。

public int lastIndexOf(int ch) {
    return lastIndexOf(ch, value.length - 1);
}

public int lastIndexOf(int ch, int fromIndex) {
    if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
        // handle most cases here (ch is a BMP code point or a
        // negative value (invalid code point))
        final char[] value = this.value;
        int i = Math.min(fromIndex, value.length - 1);
        for (; i >= 0; i--) {
            if (value[i] == ch) {
                return i;
            }
        }
        return -1;
    } else {
        return lastIndexOfSupplementary(ch, fromIndex);
    }
}

/**
 * Handles (rare) calls of lastIndexOf with a supplementary character.
 */
private int lastIndexOfSupplementary(int ch, int fromIndex) {
    if (Character.isValidCodePoint(ch)) {
        final char[] value = this.value;
        char hi = Character.highSurrogate(ch);
        char lo = Character.lowSurrogate(ch);
        int i = Math.min(fromIndex, value.length - 2);
        for (; i >= 0; i--) {
            if (value[i] == hi && value[i + 1] == lo) {
                return i;
            }
        }
    }
    return -1;
}

返回此字符串中最后一次出现的指定字符的索引。这个我就不写了，和上面一样。

public int indexOf(String str) {
    return indexOf(str, 0);
}

public int indexOf(String str, int fromIndex) {
    return indexOf(value, 0, value.length,
            str.value, 0, str.value.length, fromIndex);
}

static int indexOf(char[] source, int sourceOffset, int sourceCount,
        String target, int fromIndex) {
    return indexOf(source, sourceOffset, sourceCount,
                   target.value, 0, target.value.length,
                   fromIndex);
}

static int indexOf(char[] source, int sourceOffset, int sourceCount,
        char[] target, int targetOffset, int targetCount,
        int fromIndex) {
    if (fromIndex >= sourceCount) {
        return (targetCount == 0 ? sourceCount : -1);
    }
    if (fromIndex < 0) {
        fromIndex = 0;
    }
    if (targetCount == 0) {
        return fromIndex;
    }

    char first = target[targetOffset];
    int max = sourceOffset + (sourceCount - targetCount);

    for (int i = sourceOffset + fromIndex; i <= max; i++) {
        /* Look for first character. */
        if (source[i] != first) {
            while (++i <= max && source[i] != first);
        }

        /* Found first character, now look at the rest of v2 */
        if (i <= max) {
            int j = i + 1;
            int end = j + targetCount - 1;
            for (int k = targetOffset + 1; j < end && source[j]
                    == target[k]; j++, k++);

            if (j == end) {
                /* Found whole string. */
                return i - sourceOffset;
            }
        }
    }
    return -1;
}

返回此字符串中第一次出现指定子字符串的索引。这里最主要的就是int indexOf(char[] source, int sourceOffset, int sourceCount, char[] target, int targetOffset, int targetCount, int fromIndex)方法，我们来介绍它，source代表源字符数组，offset和count分别代表起始下标和元素个数，fromIndex表示从sourceOffset开始的偏移量。返回值就是从sourceOffset开始的偏移量，它首先规定了范围，接着循环i，当source[i]与目标字符数组第一个元素相等时进行后续判断，否则i++。

public int lastIndexOf(String str) {
    return lastIndexOf(str, value.length);
}

public int lastIndexOf(String str, int fromIndex) {
    return lastIndexOf(value, 0, value.length,
            str.value, 0, str.value.length, fromIndex);
}

static int lastIndexOf(char[] source, int sourceOffset, int sourceCount,
        String target, int fromIndex) {
    return lastIndexOf(source, sourceOffset, sourceCount,
                   target.value, 0, target.value.length,
                   fromIndex);
}

static int lastIndexOf(char[] source, int sourceOffset, int sourceCount,
        char[] target, int targetOffset, int targetCount,
        int fromIndex) {
    /*
     * Check arguments; return immediately where possible. For
     * consistency, don't check for null str.
     */
    int rightIndex = sourceCount - targetCount;
    if (fromIndex < 0) {
        return -1;
    }
    if (fromIndex > rightIndex) {
        fromIndex = rightIndex;
    }
    /* Empty string always matches. */
    if (targetCount == 0) {
        return fromIndex;
    }

    int strLastIndex = targetOffset + targetCount - 1;
    char strLastChar = target[strLastIndex];
    int min = sourceOffset + targetCount - 1;
    int i = min + fromIndex;

startSearchForLastChar:
    while (true) {
        while (i >= min && source[i] != strLastChar) {
            i--;
        }
        if (i < min) {
            return -1;
        }
        int j = i - 1;
        int start = j - (targetCount - 1);
        int k = strLastIndex - 1;

        while (j > start) {
            if (source[j--] != target[k--]) {
                i--;
                continue startSearchForLastChar;
            }
        }
        return start - sourceOffset + 1;
    }
}

返回此字符串中最后一次出现指定子字符串的索引。不写了，唯一的区别时fromIndex表示从哪里开始往前一个一个地数。

public String substring(int beginIndex) {
    if (beginIndex < 0) {
        throw new StringIndexOutOfBoundsException(beginIndex);
    }
    int subLen = value.length - beginIndex;
    if (subLen < 0) {
        throw new StringIndexOutOfBoundsException(subLen);
    }
    return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
}

public String substring(int beginIndex, int endIndex) {
    if (beginIndex < 0) {
        throw new StringIndexOutOfBoundsException(beginIndex);
    }
    if (endIndex > value.length) {
        throw new StringIndexOutOfBoundsException(endIndex);
    }
    int subLen = endIndex - beginIndex;
    if (subLen < 0) {
        throw new StringIndexOutOfBoundsException(subLen);
    }
    return ((beginIndex == 0) && (endIndex == value.length)) ? this
            : new String(value, beginIndex, subLen);
}
public CharSequence subSequence(int beginIndex, int endIndex) {
    return this.substring(beginIndex, endIndex);
}

主要就是调用构造方法，我们之前写过了。

public String concat(String str) {
    int otherLen = str.length();
    if (otherLen == 0) {
        return this;
    }
    int len = value.length;
    char buf[] = Arrays.copyOf(value, len + otherLen);
    str.getChars(buf, len);
    return new String(buf, true);
}

public static char[] copyOf(char[] original, int newLength) {
    char[] copy = new char[newLength];
    System.arraycopy(original, 0, copy, 0,
                     Math.min(original.length, newLength));
    return copy;
}

还记得getChars方法吗，不许上翻

public String replace(char oldChar, char newChar) {
    if (oldChar != newChar) {
        int len = value.length;
        int i = -1;
        char[] val = value; /* avoid getfield opcode */

        while (++i < len) {
            if (val[i] == oldChar) {
                break;
            }
        }
        if (i < len) {
            char buf[] = new char[len];
            for (int j = 0; j < i; j++) {
                buf[j] = val[j];
            }
            while (i < len) {
                char c = val[i];
                buf[i] = (c == oldChar) ? newChar : c;
                i++;
            }
            return new String(buf, true);
        }
    }
    return this;
}

它的设计思路很巧妙，首先判断新旧字符是否相等，不相等则查找value中有没有oldChar，若有说明需要创建一个新的字符数组，这时候我们创建数组，并将前i个数拷贝到新创建的数组中，i之后的数据都要进行判断。

public boolean matches(String regex) {
    return Pattern.matches(regex, this);
}

判断字符串是否满足给定正则表达式，在Pattern源码解读时会深入解析。

public boolean contains(CharSequence s) {
    return indexOf(s.toString()) > -1;
}

底层调用的是indexOf方法来判断是否包含。

public String replaceFirst(String regex, String replacement) {
    return Pattern.compile(regex).matcher(this).replaceFirst(replacement);
}

public String replaceAll(String regex, String replacement) {
    return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}

public String replace(CharSequence target, CharSequence replacement) {
    return Pattern.compile(target.toString(), Pattern.LITERAL).matcher(
            this).replaceAll(Matcher.quoteReplacement(replacement.toString()));
}

前两个都是正则表达式替换，最后一个是不使用正则表达式替换（我的妈呀，这也太卡了吧。。。）

public String[] split(String regex, int limit) {
    /* fastpath if the regex is a
     (1)one-char String and this character is not one of the
        RegEx's meta characters ".$|()[{^?*+\\", or
     (2)two-char String and the first char is the backslash and
        the second is not the ascii digit or ascii letter.
     */
    char ch = 0;
    if (((regex.value.length == 1 &&
         ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
         (regex.length() == 2 &&
          regex.charAt(0) == '\\' &&
          (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
          ((ch-'a')|('z'-ch)) < 0 &&
          ((ch-'A')|('Z'-ch)) < 0)) &&
        (ch < Character.MIN_HIGH_SURROGATE ||
         ch > Character.MAX_LOW_SURROGATE))
    {
        int off = 0;
        int next = 0;
        boolean limited = limit > 0;
        ArrayList<String> list = new ArrayList<>();
        while ((next = indexOf(ch, off)) != -1) {
            if (!limited || list.size() < limit - 1) {
                list.add(substring(off, next));
                off = next + 1;
            } else {    // last one
                //assert (list.size() == limit - 1);
                list.add(substring(off, value.length));
                off = value.length;
                break;
            }
        }
        // If no match was found, return this
        if (off == 0)
            return new String[]{this};

        // Add remaining segment
        if (!limited || list.size() < limit)
            list.add(substring(off, value.length));

        // Construct result
        int resultSize = list.size();
        if (limit == 0) {
            while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                resultSize--;
            }
        }
        String[] result = new String[resultSize];
        return list.subList(0, resultSize).toArray(result);
    }
    return Pattern.compile(regex).split(this, limit);
}

public String[] split(String regex) {
    return split(regex, 0);
}

参数limit介绍：limit 参数控制应用模式的次数，因此会影响结果数组的长度。如果限制 n 大于零，则该模式将最多应用 n - 1 次，数组的长度将不大于 n，并且数组的最后一个条目将包含最后一个匹配的分隔符之外的所有输入。如果 n 为非正数，则该模式将被应用尽可能多的次数，并且数组可以具有任意长度。如果 n 为零，则该模式将被应用尽可能多的次数，数组可以具有任意长度，并且将丢弃尾随的空字符串。简单来说，负数可以为空，零不可以。

开头就进入了这么老长的判断，那这个判断是干嘛的呢，我直接说结论吧，这个判读是为了检查regex是否是一个普通字符，若它长度是一且不是正则字符，则将它视为一个普通字符；或者包含正则字符但是长度为二且第一个字符是转义字符\、第二个字符是正则字符，我们也将他视为一个普通字符，在这里普通字符和正则字符串我们分开来处理。

public static String join(CharSequence delimiter, CharSequence... elements) {
    Objects.requireNonNull(delimiter);
    Objects.requireNonNull(elements);
    // Number of elements not likely worth Arrays.stream overhead.
    StringJoiner joiner = new StringJoiner(delimiter);
    for (CharSequence cs: elements) {
        joiner.add(cs);
    }
    return joiner.toString();
}

public StringJoiner add(CharSequence newElement) {
    prepareBuilder().append(newElement);
    return this;
}

private StringBuilder prepareBuilder() {
    if (value != null) {
        value.append(delimiter);
    } else {
        value = new StringBuilder().append(prefix);
    }
    return value;
}

将多个字符序列使用字符序列delimiter进行拼接。StringJoiner里面存储一个StringBuilder类型的变量value，join方法就是对每一个字符序列调用add方法，add方法首先调用prepareBuilder()方法，当第一次调用prepaerBuilder方法的时候value==null，这时候就不需要添加分隔符了，之后每次都要添加分隔符。append方法源码我会在之后SpringBuffer和SpringBuilder中讲到。

public static String join(CharSequence delimiter,
        Iterable<? extends CharSequence> elements) {
    Objects.requireNonNull(delimiter);
    Objects.requireNonNull(elements);
    StringJoiner joiner = new StringJoiner(delimiter);
    for (CharSequence cs: elements) {
        joiner.add(cs);
    }
    return joiner.toString();
}

迭代器也是一样

public String toLowerCase(Locale locale)

public String toLowerCase()

public String toUpperCase(Locale locale)

public String toUpperCase()

转大小写方法涉及到定制化的东西，暂时不看了。

public String trim() {
    int len = value.length;
    int st = 0;
    char[] val = value;    /* avoid getfield opcode */

    while ((st < len) && (val[st] <= ' ')) {
        st++;
    }
    while ((st < len) && (val[len - 1] <= ' ')) {
        len--;
    }
    return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
}

方法作用是去除前导和后置空格，思路是找到第一个不为空的字符和最后一个不为空的字符，然后返回这两个下标的字符字串。

public String toString() {
    return this;
}

public char[] toCharArray() {
    // Cannot use Arrays.copyOf because of class initialization order issues
    char result[] = new char[value.length];
    System.arraycopy(value, 0, result, 0, value.length);
    return result;
}

public static String format(String format, Object... args) {
    return new Formatter().format(format, args).toString();
}

public static String format(Locale l, String format, Object... args) {
    return new Formatter(l).format(format, args).toString();
}

public static String valueOf(Object obj) {
    return (obj == null) ? "null" : obj.toString();
}

public static String valueOf(char data[]) {
    return new String(data);
}

public static String valueOf(char data[], int offset, int count) {
    return new String(data, offset, count);
}

public static String copyValueOf(char data[], int offset, int count) {
    return new String(data, offset, count);
}

public static String copyValueOf(char data[]) {
    return new String(data);
}

public static String valueOf(boolean b) {
    return b ? "true" : "false";
}

public static String valueOf(char c) {
    char data[] = {c};
    return new String(data, true);
}

public static String valueOf(int i) {
    return Integer.toString(i);
}

public static String valueOf(long l) {
    return Long.toString(l);
}

public static String valueOf(float f) {
    return Float.toString(f);
}

public static String valueOf(double d) {
    return Double.toString(d);
}

这些是其他类型转换为String类型调用的方法。

public native String intern();

返回字符串对象的规范表示。字符串池最初是空的，由 String 类私下维护。当调用 intern 方法时，如果池中已经包含一个等于该 String 对象的字符串（由 equals(Object) 方法确定），则返回池中的字符串。否则，将此 String 对象添加到池中并返回对此 String 对象的引用。因此，对于任意两个字符串 s 和 t，当且仅当 s.equals(t) 为真时，s.intern() == t.intern() 为真。
返回：与此字符串具有相同内容的字符串，但保证来自唯一字符串池。

完结撒花★,°:.☆(￣▽￣)/$:.°★ 。

要搞好学习哟

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
String源码详解

一、继承关系图二、CharSequence接口接口结构如下：简单方法介绍：length: 返回字符序列长度charAt：返回特定位置的字符subSequence：返回从start开始到end-1的子字符序列toString：返回和当前字符串序列顺序相同的字符串chars和codePoints方法是JDK8中出现的新特性Stream流API，我之后会在Stream流源码解析中去介绍它，现在只需要知道是返回一个字符int流和码点int流即可。三、Comparable<T>接
复制链接

扫一扫