查询
// 是否包含子串
"Hello".contains("ll"); // true
// 搜索子串
"Hello".indexOf('l'); // 2
"Hello".lastIndexOf("l"); // 3
// 判断前缀/后缀
"Hello".startsWith("He"); // true
"Hello".endsWith("lo"); // true
获取字符串
// 提取子串
"Hello".substring(2); // "llo"
"Hello".substring(2, 4); // "ll"
// 去除首尾空白字符
" \tHello\r\n ".trim(); // "Hello"
// 替换子串
"Hello".replace("e","@"); // "H@llo"
// 通过正则表达式替换
"A,,B;C ,D".replaceAll("[\\,\\;\\s]+", ","); // "A,B,C,D"
// 分割字符串
String s = "A,B,C,D";
String[] ss = s.split("\\,"); // {"A", "B", "C", "D"}
// 拼接字符串
String.join("*", new String[]{"1", "2", "3"}); // "1*2*3"
// 或者使用 StringJoiner 类
// 格式化字符串
String.format("a=%d", 1); // "a=1"
类型转化
// (任意基本类型 | char[] | Object) 转为 String
String.valueOf(123); // "123"
String.valueOf(45.67); // "45.67"
String.valueOf(true); // "true"
String.valueOf(new char[]{'a', 'b'}); // "ab"
String.valueOf(new Object()); // 类似java.lang.Object@636be97c
// String 转 int
int n1 = Integer.parseInt("123"); // 123
int n2 = Integer.parseInt("ff", 16); // 按十六进制转换,255
// String 转 double
double d1 = Double.parseDouble("1"); // 1.0
// String 转 boolean
boolean b1 = Boolean.parseBoolean("true"); // true
boolean b2 = Boolean.parseBoolean("FALSE"); // false
// String 转 char[]
char[] cs = "Hello".toCharArray();
字符编码
在Java中,char
类型实际上就是两个字节的Unicode
编码。如果我们要手动把字符串转换成其他编码,可以这样做:
byte[] b1 = "Hello".getBytes(); // 按系统默认编码转换,不推荐
byte[] b2 = "Hello".getBytes("UTF-8"); // 按UTF-8编码转换
byte[] b2 = "Hello".getBytes("GBK"); // 按GBK编码转换
byte[] b3 = "Hello".getBytes(StandardCharsets.UTF_8); // 按UTF-8编码转换
如果要把已知编码的byte[]
转换为String
,可以这样做:
byte[] b = ...
String s1 = new String(b, "GBK"); // 按GBK转换
String s2 = new String(b, StandardCharsets.UTF_8); // 按UTF-8转换
延伸阅读
对于不同版本的JDK,String
类在内存中有不同的优化方式。具体来说,早期JDK版本的String
总是以char[]
存储,它的定义如下:
public final class String {
private final char[] value;
private final int offset;
private final int count;
}
而较新的JDK版本的String
则以byte[]
存储:如果String
仅包含ASCII字符,则每个byte
存储一个字符,否则,每两个byte
存储一个字符,这样做的目的是为了节省内存,因为大量的长度较短的String
通常仅包含ASCII字符:
public final class String {
private final byte[] value;
private final byte coder; // 0 = LATIN1, 1 = UTF16
对于使用者来说,String
内部的优化不影响任何已有代码,因为它的public
方法签名是不变的。