作用/目的
跳表作为一种数据结构通常用于取代平衡树。
起因
平衡树可以用于表示抽象的数据类型如字典和有序链表,它通过树旋转(Tree Rotation)操作强制使树结构保持平衡来保证节点搜索的效率。在数据为随机插入的情况下,平衡树性能表现良好;但数据为顺序插入或者需要删除节点的情况下,平衡树的性能就会有些糟糕。
跳表可以作为平衡树的一种替代选择。它使用随机的平衡策略取代平衡树严格的强制的树平衡策略。因此它具有更简单有效的插入/删除方法以及更快的搜索速度。
原理
假设有一个链表,我们要查找某个节点,则我们需要逐个的查找链表的每个节点
如果链表是有序的,并且每隔一个节点都有一个指向其前面2个位置节点的指针,那我们只需要最多查找⌈N/2⌉个节点(N为链表长度)
如果再每隔3个节点就有指向其前面4个位置节点的指针,那么我们就只需要查找不超过⌈N/4⌉+2个节点
也即如果每个(2^i)位置的节点都有指向其前面2^i个位置节点的指针,则查找某个节点的次数可以下降到⌈log2^n⌉次(只是指针数会变为之前的双倍)
这种数据结构可以用于快速的查找,只是插入和删除不太容易实现。
如果不再依照节点的位置,而是采取一种随机的策略来决定节点是否具有额外的指向前面节点的指针呢?
假设拥有k个前向指针的节点我们称之为k等级节点,在节点被分配出来的时候,我们通过随机策略(按照一定的概率)来决定节点的等级(也即有几个前向指针),节点的第i个指针也不再指向其前面2^i个位置的节点,而是指向等级i的下个节点。这样,插入和删除节点都只需要做很少的改动,其整体的效果却和上面所描述的类似。
由于这种数据结构是一个链表带有额外的指针,在链表的节点间跳跃,因此,原作者称其为跳跃链表(skip lists)。
实现/算法
节点等级
随机生成节点等级的算法有很多种,这里介绍原作者采用的算法:
首先确定一个概率p(1/2、1/4等),用于确定节点是否需要有下一个等级。
就跟投骰子一样,节点有1/2或1/4的概率获得下一个等级,如果是,则节点的等级k=k+1,如果不是,则节点的等级为k,至此结束。
如此重复循环。
但这里会有一个问题,某些节点的等级k可能会很大(一直获得下一个等级,虽然概率极低),这在算法的原理上没有问题(除了有极少的性能损耗),但在工程的实现上会相当麻烦,因此,在实际的实现当中,通常会设置一个最高等级(MAX_LEVEL),并且还会有一个当前链表最大等级,搜索的时候从当前最大等级开始。
关于p和MAX_LEVEL取值,原作者推荐的p值是1/4或1/2,MAX_LEVEL可根据所选的p及链表所含的最多元素个数n通过公式logp^n所得。
初始化
初始化的时候,我们会分配一个NIL节点(最终节点)并将其key值设为最大int值,还会分配一个链表初始节点,其header拥有MAX_LEVEL个前向指针,所有的前向指针都初始化成指向NIL节点(表明链表中暂无节点)。
搜索算法
通常,我们从当前链表的最大等级的header开始搜索,如果同一等级节点的key值小于搜索值,则搜索相同等级的后续节点,否则,进入到下一个等级节点继续搜索。直到搜索到相应的值或已到最低等级而后续节点的值又大于当前搜索值(表明搜索已失败)为止。
插入/删除
插入和删除节点只需要在搜索的基础上再进行简单的插入和删除操作,只是需要注意两个操作当中前向指针关系的处理,以及增加和减少链表等级后及时更新当前最大等级的值。插入的过程可见如下示意图:
实现:
准备工作:
//宏定义一堆常量
#define MAX_LEVEL 16 //最大的层级不超过16
#define MAX_INT 999999999 //定义最大的值
#define MIN_INT -999999999 //定义最小的整数
//跳表的节点
typedef struct node{
int key;
int value;
struct node *forward[]; //用来存储他指向的所有节点
}Node;
//跳表的头部
typedef struct skip{
int level;//用来记录跳表的等级
Node *head;//用来存储跳表的头结点地址
}Skip;
//定义全局变量
Node *MAX_KEY;//相当于岗哨,是跳表的尾节点
Node *MIN_KEY;//相当于岗哨,是跳表的头结点
int RANDOM_BITS;//用来设置level用
//根据传过来的level新建跳表结点
Node* newNodeOfLevel(int level){
Node *newNode = NULL;
newNode = (Node*)malloc(sizeof(Node) + level*sizeof(Node*));
for (int i = 0; i < level; i++){
newNode->forward[i] = NULL;
}
return newNode;
}
//用来计算level
int randomLevel(){
int level = 0;
RANDOM_BITS = rand();
while (RANDOM_BITS){
if (RANDOM_BITS & 3){//这样可以使产生下一等级的概率为1/4
level++;
}
RANDOM_BITS>>=2;
}
return (level > MAX_LEVEL) ? (MAX_LEVEL-1) : level;//如果产生的等级超过了最大的等级,返回最大等级-1
}
初始化一个新的跳表
Skip *newList(){
//初始化跳表尾部的节点
MAX_KEY = newNodeOfLevel(16);
MAX_KEY->key = MAX_INT;
MAX_KEY->value = MAX_INT;
MAX_KEY->forward[0] = NULL;
Skip *l=NULL;
int i;
l = (Skip*)malloc(sizeof(Skip));
l->level = 0;
l->head = newNodeOfLevel(MAX_LEVEL);
l->head->key = MIN_INT;
l->head->value = MIN_INT;
for (i = 0; i < MAX_LEVEL; i++){
l->head->forward[i] = MAX_KEY;
}
return l;
}
释放跳表
void freeList(Skip *l){
Node *p = l->head, *q = NULL;
while (p){
q = p->forward[0];
printf("%p,", p);
//free(p->forward);
free(p);
printf("成功\n");
p = q;
}
free(l);
}
向跳表中插入节点
int insert(Skip *l, int key, int value){
int k;
Node *update[MAX_LEVEL], *p=NULL, *q=NULL;
p = l->head;
k = l->level;
while (k >= 0){
while (q = p->forward[k], q->key < key){
p = q;
}
update[k] = p;
k--;
}
//如果原来有key,则新的value将覆盖原来的value
if (q->key == key){
q->value = value;
return 1;
}
/*插入新的节点*/
k = randomLevel();//获取插入的级别
if (k > l->level){//如果获取插入的级别比原来的最大级别还大,则,获得的插入级别为原来的级别加1,并将原来的最大级别加1
k = ++(l->level);
update[k] = l->head;
}
//为新插入的节点分配单元
q = newNodeOfLevel(k);
//初始化新节点
q->key = key;
q->value=value;
//将新节点插入到跳表的指定位置,
while (k >= 0){
p = update[k];
q->forward[k] = p->forward[k];
p->forward[k] = q;
k--;
}
return 0;
}
删除跳表中的节点
int insert(Skip *l, int key, int value){
int k;
Node *update[MAX_LEVEL], *p=NULL, *q=NULL;
p = l->head;
k = l->level;
while (k >= 0){
while (q = p->forward[k], q->key < key){
p = q;
}
update[k] = p;
k--;
}
//如果原来有key,则新的value将覆盖原来的value
if (q->key == key){
q->value = value;
return 1;
}
/*插入新的节点*/
k = randomLevel();//获取插入的级别
if (k > l->level){//如果获取插入的级别比原来的最大级别还大,则,获得的插入级别为原来的级别加1,并将原来的最大级别加1
k = ++(l->level);
update[k] = l->head;
}
//为新插入的节点分配单元
q = newNodeOfLevel(k);
//初始化新节点
q->key = key;
q->value=value;
//将新节点插入到跳表的指定位置,
while (k >= 0){
p = update[k];
q->forward[k] = p->forward[k];
p->forward[k] = q;
k--;
}
return 0;
}
查找跳表中的节点
int insert(Skip *l, int key, int value){
int k;
Node *update[MAX_LEVEL], *p=NULL, *q=NULL;
p = l->head;
k = l->level;
while (k >= 0){
while (q = p->forward[k], q->key < key){
p = q;
}
update[k] = p;
k--;
}
//如果原来有key,则新的value将覆盖原来的value
if (q->key == key){
q->value = value;
return 1;
}
/*插入新的节点*/
k = randomLevel();//获取插入的级别
if (k > l->level){//如果获取插入的级别比原来的最大级别还大,则,获得的插入级别为原来的级别加1,并将原来的最大级别加1
k = ++(l->level);
update[k] = l->head;
}
//为新插入的节点分配单元
q = newNodeOfLevel(k);
//初始化新节点
q->key = key;
q->value=value;
//将新节点插入到跳表的指定位置,
while (k >= 0){
p = update[k];
q->forward[k] = p->forward[k];
p->forward[k] = q;
k--;
}
return 0;
}
测试:
int main(void){
srand(time(NULL));
Skip *l;
int i, k;
int map[10000][2];
int v;
l = newList();
for (int i = 0; i < 10; i++){
//随机生成key,value
map[i][0] = rand()%1000;
map[i][1] = rand()%1000;
insert(l, map[i][0], map[i][1]);
}
printSkipLink(l);
printf("\n--------------------------------------------------------------------\n");
printf("\n\nlevel=%d\n\n",l->level);
for (int i = 0; i < 10; i++){
deleteNode(l,map[i][0]);
}
//deleteNode(l, map[0][0]);
printf("删除后:%d ====%d\n\n",map[0][0],search(l,map[0][0]));
printf("\n--------------------------------------------------------------------\n");
//printSkipLink(l);
//freeList(l);
system("pause");
return 0;
}
演示效果: