String的hashCode为什么选择31作为乘子?

文章探讨了Java中String类的hashCode()方法,解释了为何31被选为乘数,以及它如何影响哈希码的计算和碰撞概率。实验显示,与其他数字相比,31作为乘数能显著减少哈希冲突。
摘要由CSDN通过智能技术生成

hashCode()源码

先看下String类的源码,31出现在hashCode()方法中。

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {

    private final char value[]; //这里是C风格的字符数组声明

    private int hash;
	
	...
	
    public int hashCode() {
        int h = hash;
        if (h == 0 && value.length > 0) {
            char val[] = value;

            for (int i = 0; i < value.length; i++) {
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }
}

val[i] 是中文怎么办?

上篇文章:彻底搞懂:java中的char能表示中文吗? 中已经明确,java中的char可以表示中文。

如果是中文char的整数值是多少?

单字节的话,最大值是255。unicode在BMP范围内采用双字节。数值是19968 到 40891

package pb;

public class CharTest {
   public static void main(String[] args) {

       char a = 19968;
       char b = 19969;
       char c = 19970;
       char d = 19971;
       char e = 19972;

       System.out.println(a + "" + b + c + d + e);

       char x = '中';
       int i = x;
       System.out.println("中:" + i);
   }
}

输出结果:

一丁丂七丄
中:20013

如何判断一个Unicode表示的字符为一个中文字

注释中的计算方法

31是实验得到的一个最优解之一。

String.java的hashCode()方法的注释:

也就是说hash值得计算公式是:

 hash= s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]

那到底为什么用31了?

我们一点一点分解。

为什么不用更大的数,比如101作为乘数?

因为101^5 = 10,510,100,501。这个计算结果太大了。如果用 int 类型表示哈希值,结果会溢出。
31^5 = 28629151,不大不小。
为什么 String 的 hashCode 方法选择数字31作为乘子

为啥用31了?

这篇文章:String的HashCode为什么使用 31 作为乘数?有讲,下面的内容我只是转述,没有验证过。
通过代码验证之后,得到的结果如下:

单词数量:103976
乘数 =    2, 最小Hash =          97, 最大Hash = 1842581979, 碰撞数量 = 60382, 碰撞概率 = 58.0730%
乘数 =    3, 最小Hash = -2147308825, 最大Hash = 2146995420, 碰撞数量 = 24300, 碰撞概率 = 23.3708%
乘数 =    5, 最小Hash = -2147091606, 最大Hash = 2147227581, 碰撞数量 =  7994, 碰撞概率 = 7.6883%
乘数 =    7, 最小Hash = -2147431389, 最大Hash = 2147226363, 碰撞数量 =  3826, 碰撞概率 = 3.6797%
乘数 =   17, 最小Hash = -2147238638, 最大Hash = 2147101452, 碰撞数量 =   576, 碰撞概率 = 0.5540%
乘数 =   31, 最小Hash = -2147461248, 最大Hash = 2147444544, 碰撞数量 =     2, 碰撞概率 = 0.0019%
乘数 =   32, 最小Hash = -2007883634, 最大Hash = 2074238226, 碰撞数量 = 34947, 碰撞概率 = 33.6106%
乘数 =   33, 最小Hash = -2147469046, 最大Hash = 2147378587, 碰撞数量 =     1, 碰撞概率 = 0.0010%
乘数 =   39, 最小Hash = -2147463635, 最大Hash = 2147443239, 碰撞数量 =     0, 碰撞概率 = 0.0000%
乘数 =   41, 最小Hash = -2147423916, 最大Hash = 2147441721, 碰撞数量 =     1, 碰撞概率 = 0.0010%
乘数 =  199, 最小Hash = -2147459902, 最大Hash = 2147480320, 碰撞数量 =     0, 碰撞概率 = 0.0000%

对于哈希码计算来说,什么是合理的素数?
为什么在 hashCode 中使用质数?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhangjin1120

可靠的文章费时费力,希望支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值