ULID规范解读与实现原理

本文详细解读了ULID的出现背景、规范、特点,包括时间戳、随机数、编码方式、单调性等,并提供了Java语言的实现,讨论了ULID在性能和应用场景上的优势。
摘要由CSDN通过智能技术生成

前提

最近发现各个频道推荐了很多ULID相关文章,这里对ULID的规范文件进行解读,并且基于Java语言自行实现ULID,通过此实现过程展示ULID的底层原理。

ULID出现的背景

ULID全称是Universally Unique Lexicographically Sortable Identifier,直译过来就是「通用唯一按字典排序的标识符」,它的原始仓库是https://github.com/ulid/javascript,该项目由前端开发者alizain发起,基于JavaScript语言编写。从项目中的commit历史来看已经超过了5年,「理论上得到充分的实践验证」。ULID出现的原因是一些开发者认为主流的UUID方案在许多场景下可能不是最优的,存在下面的原因:

  • UUID不是128 bit随机编码(由128 bit随机数通过编码生成字符串)的最高效实现方式
  • UUID的v1/v2实现在许多环境中是不切实际的,因为这两个版本的的实现需要访问唯一的、稳定的MAC地址
  • UUID的v3/v5实现需要唯一的种子,并且产生随机分布的ID,这可能会导致在许多数据结构中出现碎片
  • UUID的v4除了随机性之外不需要提供其他信息,随机性可能会在许多数据结构中导致碎片

这里概括一下就是:UUID的v1/v2实现依赖唯一稳定MAC地址不现实,v3/v4/v5实现因为随机性产生的ID会"碎片化"。

基于此提出了ULID,它用起来像这样:

ulid() // 01ARZ3NDEKTSV4RRFFQ69G5FAV

ULID的特点如下:

  • 设计为128 bit大小,与UUID兼容
  • 每毫秒生成1.21e+24个唯一的ULID(高性能)
  • 按字典顺序(字母顺序)排序
  • 标准编码为26个字符的字符串,而不是像UUID那样需要36个字符
  • 使用Crockford的base32算法来提高效率和可读性(每个字符5 bit)
  • 不区分大小写
  • 没有特殊字符串(URL安全,不需要进行二次URL编码)
  • 单调排序(正确地检测并处理相同的毫秒,所谓「单调性」,就是毫秒数相同的情况下,能够确保新的ULID随机部分的在最低有效位上加1位)

ULID规范

下面的ULID规范在ULID/javascript类库中实现,此二进制格式目前没有在JavaScript中实现:

 01AN4Z07BY      79KA1307SR9X4MV3
|----------|    |----------------|
 Timestamp          Randomness
   48bits             80bits

组成

「时间戳(Timestamp)」

  • 占据48 bit(high)
  • 本质是UNIX-time,单位为毫秒
  • 直到公元10889年才会用完

「随机数(Randomness)」

  • 占据80 bit(low)
  • 如果可能的话,使用加密安全的随机源

排序

"最左边"的字符必须排在最前面,"最右边"的字符排在最后(词法顺序,或者俗称的字典排序),并且所有字符必须使用默认的ASCII字符集。在相同的毫秒(时间戳)内,无法保证排序顺序。

规范的表示形式

ULID规范的字符串表示形式如下:

ttttttttttrrrrrrrrrrrrrrrr

where
t is Timestamp (10 characters)
r is Randomness (16 characters)

也就是:

  • 时间戳占据高(左边)10个(编码后的)字符
  • 随机数占据低(右边)16个(编码后的)字符

ULID规范的字符串表示形式的长度是确定的,「共占据26个字符」

编码

使用Crockford Base32编码算法,这个编码算法的字母表如下:

0123456789ABCDEFGHJKMNPQRSTVWXYZ

该字母表排除了I、 L、O、U字母,目的是避免混淆和滥用。此算法实现不难,它的官网有详细的算法说明(见https://www.crockford.com/base32.html):

单调性

(如果启用了单调性这个特性为前提下)当在相同的毫秒内生成多个ULID时,可以保证排序的顺序。也就是说,如果检测到相同的毫秒,则随机分量在最低有效位上加1位(带进位)。例如:

monotonicUlid()  // 01BX5ZZKBKACTAV9WEVGEMMVRZ
monotonicUlid()  // 01BX5ZZKBKACTAV9WEVGEMMVS0

溢出错误处理

从技术实现上来看,26个字符的Base32编码字符串可以包含130 bit信息,而ULID只包含128 bit信息,所以该编码算法是能完全满足ULID的需要。基于Base32编码能够生成的最大的合法ULID其实就是7ZZZZZZZZZZZZZZZZZZZZZZZZZ,并且使用的时间戳为epoch time的281474976710655或者说2 ^ 48 - 1。对于任何对大于此值的ULID进行解码或编码的尝试都应该被所有实现拒绝,以防止溢出错误。

二进制布局

二进制布局的多个部分被编码为16 byte,每个部分都以最高字节优先(网络字节序,也就是big-endian)进行编码,布局如下:

0                   1                   2                   3
 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值