java中String的透彻理解

     要理解 java中String的运作方式,必须明确一点:String是一个非可变类(immutable)。什么是非可变类呢?简单说来,非可变类的实例是不能被修改的,每个实例中包含的信息都必须在该实例创建的时候就提供出来,并且在对象的整个生存周期内固定不变。java为什么要把String设计为非可变类呢?你可以问问 james Gosling :)。但是非可变类确实有着自身的优势,如状态单一,对象简单,便于维护。其次,该类对象对象本质上是线程安全的,不要求同步。此外用户可以共享非可变对象,甚至可以共享它们的内部信息。(详见 《Effective java》item 13)。String类在java中被大量运用,甚至在class文件中都有其身影,因此将其设计为简单轻便的非可变类是比较合适的。
一、创建。
       好了,知道String是非可变类以后,我们可以进一步了解String的构造方式了。创建一个Stirng对象,主要就有以下两种方式:
java 代码
String str1 = new String("abc");     
Stirng str2 = "abc";  
        虽然两个语句都是返回一个String对象的引用,但是jvm对两者的处理方式是不一样的。对于第一种,jvm会马上在heap中创建一个String对象,然后将该对象的引用返回给用户。对于第二种,jvm首先会在内部维护的strings pool中通过String的 equels 方法查找是对象池中是否存放有该String对象,如果有,则返回已有的String对象给用户,而不会在heap中重新创建一个新的String对象;如果对象池中没有该String对象,jvm则在heap中创建新的String对象,将其引用返回给用户,同时将该引用添加至strings pool中。注意:使用第一种方法创建对象时,jvm是不会主动把该对象放到strings pool里面的,除非程序调用 String的intern方法。看下面的例子:
java 代码
String str1 = new String("abc"); //jvm 在堆上创建一个String对象    
   
  //jvm 在strings pool中找不到值为“abc”的字符串,因此    
  //在堆上创建一个String对象,并将该对象的引用加入至strings pool中    
  //此时堆上有两个String对象    
Stirng str2 = "abc";    
   
  if(str1 == str2){    
              System.out.println("str1 == str2");    
  }else{    
              System.out.println("str1 != str2");    
  }    
    //打印结果是 str1 != str2,因为它们是堆上两个不同的对象    
   
    String str3 = "abc";    
  //此时,jvm发现strings pool中已有“abc”对象了,因为“abc”equels “abc”    
  //因此直接返回str2指向的对象给str3,也就是说str2和str3是指向同一个对象的引用    
    if(str2 == str3){    
              System.out.println("str2 == str3");    
    }else{    
              System.out.println("str2 != str3");    
    }    
  //打印结果为 str2 == str3  
     再看下面的例子:
java 代码
String str1 = new String("abc"); //jvm 在堆上创建一个String对象    
   
str1 = str1.intern();    
//程序显式将str1放到strings pool中,intern运行过程是这样的:首先查看strings pool    
//有没“abc”对象的引用,没有,则在堆中新建一个对象,然后将新对象的引用加入至    
//strings pool中。执行完该语句后,str1原来指向的String对象已经成为垃圾对象了,随时会    
//被GC收集。    
   
//此时,jvm发现strings pool中已有“abc”对象了,因为“abc”equels “abc”    
//因此直接返回str1指向的对象给str2,也就是说str2和str1引用着同一个对象,    
//此时,堆上的有效对象只有一个。    
Stirng str2 = "abc";    
   
  if(str1 == str2){    
              System.out.println("str1 == str2");    
  }else{    
              System.out.println("str1 != str2");    
  }    
    //打印结果是 str1 == str2    
   
 
       为什么jvm可以这样处理String对象呢?就是因为String的非可变性。既然所引用的对象一旦创建就永不更改,那么多个引用共用一个对象时互不影响。

二、串接(Concatenation)。
        java程序员应该都知道滥用String的串接操作符是会影响程序的性能的。性能问题从何而来呢?归根结底就是String类的非可变性。既然String对象都是非可变的,也就是对象一旦创建了就不能够改变其内在状态了,但是串接操作明显是要增长字符串的,也就是要改变String的内部状态,两者出现了矛盾。怎么办呢?要维护String的非可变性,只好在串接完成后新建一个String 对象来表示新产生的字符串了。也就是说,每一次执行串接操作都会导致新对象的产生,如果串接操作执行很频繁,就会导致大量对象的创建,性能问题也就随之而来了。
       为了解决这个问题,jdk为String类提供了一个可变的配套类,StringBuffer。使用StringBuffer对象,由于该类是可变的,串接时仅仅时改变了内部数据结构,而不会创建新的对象,因此性能上有很大的提高。针对单线程,jdk 5.0还提供了StringBuilder类,在单线程环境下,由于不用考虑同步问题,使用该类使性能得到进一步的提高。
三、String的长度
     我们可以使用串接操作符得到一个长度更长的字符串,那么,String对象最多能容纳多少字符呢?查看String的源代码我们可以得知类String中是使用域 count 来记录对象字符的数量,而count 的类型为 int,因此,我们可以推测最长的长度为 2^32,也就是4G。
       不过,我们在编写源代码的时候,如果使用 Sting str = "aaaa";的形式定义一个字符串,那么双引号里面的ASCII字符最多只能有 65534 个。为什么呢?因为在class文件的规范中, CONSTANT_Utf8_info表中使用一个16位的无符号整数来记录字符串的长度的,最多能表示 65536个字节,而java class 文件是使用一种变体UTF-8格式来存放字符的,null值使用两个字节来表示,因此只剩下 65536- 2 = 65534个字节。也正是变体UTF-8的原因,如果字符串中含有中文等非ASCII字符,那么双引号中字符的数量会更少(一个中文字符占用三个字节)。如果超出这个数量,在编译的时候编译器会报错。





















public class Test {  
       public static void stringReplace(String text) {  
             //把textString的地址copy给text,text也指向了textString的"java"  
             //text.replace('j', 'i');的结果是"iava"  
             //text = text.replace('j', 'i');就是重新使text指向"iava"  
             //由于该方法的返回类型是void,所以原来的textString没变  
             text = text.replace('j', 'i');  
       }  
   
       public static void bufferReplace(StringBuffer text) {  
             //textBuffer的地址copy给text  
             //然后沿着text指向的字符串(其实也就是textBuffer指向的对象)操作,添加一个"C"  
             //虽然没有任何返回,但是这个操作影响到了textBuffer所指向的字符串  
             //所以上个方法打印"java",这个方法打印"javaC"  
             text = text.append("C");  
       }  
   
       public static void main(String args[]) {  
             String textString = new String("java");  
             StringBuffer textBuffer = new StringBuffer("java");  
   
             stringReplace(textString);  
             bufferReplace(textBuffer);  
   
             System.out.println(textString + textBuffer);  
       }  
}  








首先把问题摆出来,先看这个代码 

String a = "ab"; 
String b = "a" + "b"; 
System.out.println((a == b)); 

打印结果会是什么?类似这样的问题,有人考过我,我也拿来考过别人(蛮好玩的,大家也可以拿来问人玩),一般答案会是以下几种: 

1.true 
       "a" + "b" 的结果就是"ab",这样a,b都是"ab"了,内容一样所以"相等",结果true 
       一般java新人如是答。 
2.false 
       "a" + "a"会生成新的对象"aa",但是这个对象和String a = "ab";不同,(a == b)是比较对象引用,因此不相等,结果false 
       对java的String有一定了解的通常这样回答。 
3.true 
       String a = "ab";创建了新的对象"ab"; 再执行String b = "a" + "b";结果b="ab",这里没有创建新的对象,而是从JVM字符串常量池中获取之前已经存在的"ab"对象。因此a,b具有对同一个string对象的引用,两个引用相等,结果true. 
       能回答出这个答案的,基本已经是高手了,对java中的string机制比较了解。 
       很遗憾,这个答案,是不够准确的。或者说,根本没有运行时计算b = "a" + "b";这个操作.实际上运行时只有String b = "ab"; 
       3的观点适合解释以下情况: 
       String a = "ab"; 
       String b = "ab"; 
       System.out.println((a == b)); 
       如果String b = "a" + "b";是在运行期执行,则3的观点是无法解释的。运行期的两个string相加,会产生新的对象的。(本文后面对此有解释) 

4.true 
       下面是我的回答:编译优化+ 3的处理方式 = 最后的true 
       String b = "a" + "b";编译器将这个"a" + "b"作为常量表达式,在编译时进行优化,直接取结果"ab",这样这个问题退化 
       String a = "ab"; 
       String b = "ab"; 
       System.out.println((a == b)); 
       然后根据3的解释,得到结果true 

       这里有一个疑问就是String不是基本类型,像 
int secondsOfDay = 24 * 60 * 60; 
       这样的表达式是常量表达式,编译器在编译时直接计算容易理解,而"a" + "b" 这样的表达式,string是对象不是基本类型,编译器会把它当成常量表达式来优化吗? 
       下面简单证明我的推断,首先编译这个类: 
public class Test { 
       private String a = "aa"; 
           复制class文件备用,然后修改为 
public class Test { 
       private String a = "a" + "a"; 
       再次编译,用ue之类的文本编辑器打开,察看二进制内容,可以发现,两个class文件完全一致,连一个字节都不差. 
       ok,真相大白了.根本不存在运行期的处理String b = "a" + "b";这样的代码的问题,编译时就直接优化掉了。 


下面进一步探讨,什么样的string + 表达式会被编译器当成常量表达式? 
String b = "a" + "b"; 
这个String + String被正式是ok的,那么string + 基本类型呢? 

String a = "a1"; 
String b = "a" + 1;
System.out.println((a == b));   //result = true 

String a = "atrue"; 
String b = "a" + true; 
System.out.println((a == b));   //result = true 

String a = "a3.4"; 
String b = "a" + 3.4; 
System.out.println((a == b));   //result = true 
     
可见编译器对string + 基本类型是当成常量表达式直接求值来优化的。 

再注意看这里的string都是"**"这样的,我们换成变量来试试: 
String a = "ab"; 
String bb = "b"; 
String b = "a" + bb; 
System.out.println((a == b));    //result = false 
这个好理解,"a" + bb中的bb是变量,不能进行优化。这里很很好的解释了为什么3的观点不正确,如果String+String的操作是在运行时进行的,则会产生新的对象,而不是直接从jvm的string池中获取。 

再修改一下,把bb作为常量变量: 
String a = "ab"; 
final String bb = "b"; 
String b = "a" + bb; 
System.out.println((a == b));    //result = true 
竟然又是true,编译器的优化好厉害啊,呵呵,考虑下面这种情况: 
String a = "ab"; 
final String bb = getBB(); 
String b = "a" + bb; 
System.out.println((a == b));      //result = false 
private static String getBB() { 
return "b"; 
看来java(包括编译器和jvm)对string的优化,真的是到了极点了,string这个所谓的"对象",完全不可以看成一般的对象,java对string的处理近乎于基本类型,最大限度的优化了几乎能优化的地方。 

另外感叹一下,string的+号处理,算是java语言里面唯一的一个"运算符重载"(接触过c++的人对这个不会陌生)吧?
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值