二叉排序树
二叉排序树(也称二叉查找树):或者是一棵空的二叉树,或者是具有下列性质的二叉树:
⑴若它的左子树不空,则左子树上所有结点的值均小于根结点的值;
⑵若它的右子树不空,则右子树上所有结点的值均大于根结点的值;
⑶ 它的左右子树也都是二叉排序树。
二叉排序树的插入
若二叉排序树为空树,则新插入的结点为新的根结点;否则,新插入的结点必为一个新的叶子结点,其插入位置由查找过程得到。
若二叉排序树为空树,则新插入的结点为新的根结点;
否则,如果插入的值比根节点值大,则在右子树中进行插入;否则,在左子树中进行插入。
递归。
二叉排序树的构造
从空的二叉排序树开始,依次插入一个个结点 。
BiSortTree::BiSortTree(int a[ ], int n)
{
root = NULL;
for (int i = 0; i < n; i++)
root = InsertBST(root, a[i]);
}
二叉排序树的删除
在二叉排序树上删除某个结点之后,仍然保持二叉排序树的特性。
1.被删除的结点是叶子:
操作:将双亲结点中相应指针域的值改为空。
2.被删除的结点只有左子树或者只有右子树:
操作:将双亲结点的相应指针域的值指向被删除结点的左子树(或右子树)。
3.被删除的结点既有左子树也有右子树:
操作:以其前驱(左子树中的最大值)替代之,然后再删除该前驱结点。
以其后继(右子树中的最小值)替代之,然后再删除该前驱结点。
1.若结点p是叶子,则直接删除结点p;
2. 若结点p只有左子树,则只需重接p的左子树;
若结点p只有右子树,则只需重接p的右子树;
3. 若结点p的左右子树均不空,则
3.1 查找结点p的右子树上的最左下结点s及s双亲结点par;
3.2 将结点s数据域替换到被删结点p的数据域;
3.3 若结点p的右孩子无左子树,
则将s的右子树接到par的右子树上;
否则,将s的右子树接到结点par的左子树上;
3.4 删除结点s;
void BiSortTree::DeleteBST(BiNode<int> *p, BiNode<int> *f ) {
if (!p->lchild && !p->rchild) {
if(f->child==p) f->lchild= NULL;
else f->lchild= NULL;
delete p;
}
else if (!p->rchild) { //p只有左子树
if(f->child==p) f->lchild=p->lchild;
else f->rchild=p->lchild;
delete p;
}
else if (!p->lchild) { //p只有右子树
if(f->child==p) f->lchild=p->rchild;
else f->rchild=p->rchild;
delete p;
}
else { //左右子树均不空
par=p; s=p->rchild;
while (s->lchild!=NULL) //查找最左下结点
{
par=s;
s=s->lchild;
}
p->data=s->data;
if (par==p) p->rchild=s->rchild; //处理特殊情况
else par->lchild=s->rchild; //一般情况
delete s;
} //左右子树均不空的情况处理完毕
}
二叉排序树的查找
⑴ 若root是空树,则查找失败;
⑵ 若k=root->data,则查找成功;否则
⑶ 若k<root->data,则在root的左子树上查找;否则
⑷ 在root的右子树上查找。
上述过程一直持续到k被找到或者待查找的子树为空,如果待查找的子树为空,则查找失败。
二叉排序树的查找效率在于只需查找二个子树之一。
BiNode *BiSortTree::SearchBST(BiNode<int> *root, int k)
{
if (root==NULL)
return NULL;
else if (root->data==k)
return root;
else if (k<root->data)
return SearchBST(root->lchild, k);
else
return SearchBST(root->rchild, k);
}
二叉排序树的查找性能分析
由序列{1, 2, 3, 4, 5}得到二叉排序树:
ASL =(1+2+3+4+5)/ 5= 3
由序列{3, 1, 2, 5, 4}得到二叉排序树:
ASL =(1+2+3+2+3)/ 5 = 2.2
二叉排序树的查找性能取决于二叉排序树的形状,在O(log2n)和O(n)之间。
平衡二叉树(AVL树)
平衡二叉树:或者是一棵空的二叉排序树,或者是具有下列性质的二叉排序树:
⑴ 根结点的左子树和右子树的深度最多相差1;
⑵ 根结点的左子树和右子树也都是平衡二叉树。
平衡因子:结点的平衡因子是该结点的左子树的深度与右子树的深度之差。
在平衡树中,结点的平衡因子可以是1,0,-1。
最小不平衡子树:在平衡二叉树的构造过程中,以距离插入结点最近的、且平衡因子的绝对值大于1的结点为根的子树。
平衡二叉树
基本思想:
在构造二叉排序树的过程中,每插入一个结点时,首先检查是否因插入而破坏了树的平衡性,
若是,
则找出最小不平衡子树,
在保持二叉排序树特性的前提下,调整最小不平衡子树中各结点之间的链接关系,进行相应的旋转,使之成为新的平衡子树。
一、设结点A为最小不平衡子树的根结点,对该子树进行平衡调整归纳起来有以下四种情况:
B=A->lchild;
A->lchild=B->rchild;
B->rchild=A;
A->bf=0; B->bf=0;
if (FA==NULL) root=B;
else if (A==FA->lchild) FA->lchild=B;
else FA->rchild=B;
B=A->rchild;
A->rchild=B->lchild;
B->lchild=A;
A->bf=0; B->bf=0;
if (FA==NULL)
root=B;
else if (A==FA->lchild)
FA->lchild=B;
else
FA->rchild=B;
B=A->lchild;C=B->rchild;
B->rchild=C->lchild;
A->lchild=C->rchild;
C->lchild=B; C->rchild=A;
然后针对上述三种不同情况,修改A、B、C的平衡因子:
if (S->key <C->key) /* 在C-L下插入S */
{ A->bf=-1; B->bf=0 ; C->bf=0; }
然后针对上述三种不同情况,修改A、B、C的平衡因子:
if (S->key ==C->key) /* C本身就是插入的新结点S */
{ A->bf=0; B->bf=0 ;C->bf=0 }
最后,将调整后的二叉树的根结点C“接到”原A处。令A原来的父指针为FA,如果FA非空,则用C代替A做FA的左子或右子;否则,原来A就是根结点, 此时应令根指针t指向C:
if (FA==NULL) root=C;
else if (A==FA->lchild) FA->lchild=C;
else FA->rchild=C;
为恢复平衡并保持二叉排序树的特性,可首先将B改为C的左子,而C原来的左子改为B的右子;然后将A改为C的右子, C原来的右子改为A的左子
B=A->rchild; C=B->lchild;
B->lchild=C->rchild;
A->rchild=C->lchild;
C->lchild=A; C->rchild=B;
然后针对上述三种不同情况,修改A、B、C的平衡因子:
if (S->key <C->key) /* 在CL下插入S */
{ A->bf=0; B->bf=-1 ; C->bf=0; }
if (S->key >C->key) /* 在CR下插入S */
{ A->bf=1; B->bf=0 ; C->bf=0; }
if (S->key ==C->key) /* C本身就是插入的新结点S */
{ A->bf=0; B->bf=0 ;C->bf=0 }
最后,将调整后的二叉树的根结点C“接到”原A处。 令A原来的父指针为FA,如果FA非空,则用C代替A做FA的左子或右子;否则,原来A就是根结点,此时应令根指针t指向C:
if (FA==NULL) root=C;
else if (A==FA->lchild) FA->lchild=C;
else FA->rchild=C;
为恢复平衡并保持二叉排序树的特性,可首先将B改为C的右子, 而C原来的右子改为B的左子;然后将A改为C的左子,C原来的左子改为A的右子。
B-树
m阶B-树:是满足下列特性的树:
(1) 树中每个结点至多有m棵子树;
(2) 若根结点不是终端结点,则至少有两棵子树;
(3) 除根结点外,其他非终端结点至少有m/2 棵子树;
(4)所有非终端结点都包含以下数据:
(n,A0,K1,A1,K2,…,Kn,An)
其中,n(m/2 1≤n≤m 1)为关键码的个数;
Ki(1≤i≤n)为关键码,且Ki<Ki+1(1≤i≤n-1);
Ai(0≤i≤n)为指向子树根结点的指针,且指针Ai所指子树中所有结点的关键码均小于Ki+1大于Ki。
(5)所有叶子结点都在同一层上,B树是高平衡的。
基本原理:
当一个节点中插入新的数据时,
会造成节点中数据个数大于(m-1),
此时需要分裂节点,
将节点中第[m/2]+1个数据插入到当前节点的前驱中,
当前节点分裂为两个节点。
当最下层结点中的关键字数大于m/2 -1 时,可直接删除。
当最下层待删关键字所在结点中关键字数目为最低要求m/2 -1时,如果其左(右)兄弟中关键字数目大于m/2 -1,则可采用“父子换位法”。
当最下层待删结点及其左右兄弟中的关键字数目均为最低要求数目m/2 -1时,需要进行合并处理,合并过程与插入时的分裂过程“互逆”,合并一次, 分支数少一,可能出现 “连锁合并”, 当合并到根时, 各分支深度同时减1。
B+
B+树是B-树的变体,也是一种多路搜索树:
m阶B+树的结构定义如下:
(1)每个结点至多有m个子结点;
(2)每个结点(除根外)至少有ceiling(m/2)个子结点;
(3)根结点至少有两个子结点;
(4)有k个子结点的结点必有k个关键码。
m阶B+树:是满足下列特性的树:
⑴ 含有m个关键码,每一个关键码对应一棵子树。
⑵ 关键码Ki是它所对应的子树的根结点中的最大(或最小)关键码。
⑶ 所有终端结点中包含了全部关键码信息,以及指向关键码记录的指针。
⑷ 所有终端结点按关键码的大小链在一起,形成单链表,并设置头指针。
查找应该到叶结点层
在上层已找到待查的关键码,并不停止
而是继续沿指针向下一直查到叶结点层的这个关键码
B+树的叶结点一般链接起来,形成一个双链表
适合顺序检索(范围检索)
特点:
对于阶数相同的两棵树,每个节点所包含的分支数的定义相同(不能少于m/2,不能多于m)
每个节点所包含的关键字的个数不同
B-树中,关键字不重复出现;B+树中,叶子节点存放所有的关键字,内部结点存储着其后继节点中最大的关键字
插入操作都会引起节点的分裂
删除操作都会引起节点的合并
B-树适用于随机检索;B+树支持随机和顺序检索
散列表的查找技术
散列的基本思想:在记录的存储地址和它的关键码之间建立一个确定的对应关系。这样,不经过比较,一次读取就能得到所查元素的查找方法。
散列表:采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为散列表。
散列函数:将关键码映射为散列表中适当存储位置的函数。
散列地址:由散列函数所得的存储位置址 。
散列查找的限制
散列技术一般不适用于允许多个记录有同样关键码的情况。
有冲突,降低了查找效率,体现不出计算式查找的优点
散列方法也不适用于范围查找
不能查找最大值、最小值
也不可能找到在某一范围内的记录。
散列技术的关键问题:
⑴ 散列函数的设计。如何设计一个简单、均匀、存储利用率高的散列函数。
⑵ 冲突的处理。如何采取合适的处理冲突方法来解决冲突。
冲突:对于两个不同关键码ki≠kj,有H(ki)=H(kj),即两个不同的记录需要存放在同一个存储位置,ki和kj相对于H称做同义词。
设计散列函数一般应遵循以下原则:
⑴ 计算简单。散列函数不应该有很大的计算量,否则会降低查找效率。
⑵ 函数值即散列地址分布均匀。函数值要尽量均匀散布在地址空间,这样才能保证存储空间的有效利用并减少冲突。
直接定址法:
散列函数是关键码的线性函数,即:
H(key) = a * key + b (a,b为常数)
除留余数法:
散列函数为:H(key)=key mod p
一般情况下,选p为小于或等于表长(最好接近表长)的最小素数
除留余数法是一种最简单、也是最常用的构造散列函数的方法,并且不要求事先知道关键码的分布。
数字分析法:
根据关键码在各个位上的分布情况,选取分布比较均匀的若干位组成散列地址。
对关键码平方后,按散列表大小,取中间的若干位作为散列地址(平方后截取)。
折叠法:
将关键码从左到右分割成位数相等的几部分,将这几部分叠加求和,取后几位作为散列地址。
使用情况:关键码位数很多,事先不知道关键码的分布。
线性探测法:
当发生冲突时,从冲突位置的下一个位置起,依次寻找空的散列地址。
对于键值key,设H(key)=d,闭散列表的长度为m,则发生冲突时,寻找下一个散列地址的公式为:
Hi=(H(key)+di) % m (di=1,2,…,m-1)
堆积:在处理冲突的过程中出现的非同义词之间对同一个散列地址争夺的现象。
假设给定的值为K,根据所设定的散列函数h,计算出散列地址h (K)
否则将该地址中的值与K比较,若相等则检索成功,算法结束
否则,按建表时设定的处理冲突方法查找探查序列的下一个地址,如此反复下去
直到某个地址空间未被占用(查找不成功,可以插入),算法结束
或者关键码比较相等(有重复记录,不需要插入)为止,算法结束
如果探测完整个hash表,都没有进行插入或查找失败,则抛出空间异常(hash表容量不足)
int HashSearch1(int ht[ ], int m, int k)
{
j=H(k);
if (ht[j]==k) return j; //没有发生冲突,比较一次查找成功
i=(j+1) % m;
while (ht[i]!=Empty && i!=j)
{
if (ht[i]==k) return i; //发生冲突,比较若干次查找成功
i=(i+1) % m; //向后探测一个位置
}
if (i==j) throw "溢出";
else ht[i]=k; //查找不成功时插入
}
删除:
要进行标记,否则影响后面的查找工作
查找:
遇到标记后,继续查找
插入:
遇到标记,不能直接插入;
否在,会造成重复数据
继续,搜索
查找成功,停止插入
查找失败,进行插入
二次探测法:
当发生冲突时,寻找下一个散列地址的公式为:
Hi=(H(key)+di)% m
(di=12,-12,22,-22,…,q2,-q2且q≤m/2)
随机探测法:
当发生冲突时,下一个散列地址的位移量是一个随机数列,即寻找下一个散列地址的公式为:
Hi=(H(key)+di)% m
(di是一个随机数列,i=1,2,……,m-1)
拉链法(链地址法)
基本思想:将所有散列地址相同的记录,即所有同义词的记录存储在一个单链表中(称为同义词子表),在散列表中存储的是所有同义词子表的头指针。
用拉链法处理冲突构造的散列表叫做开散列表。
设n个记录存储在长度为m的散列表中,则同义词子表的平均长度为n / m。
Node<int> *HashSearch2(Node<int> *ht[ ], int m, int k)
{
j=H(k);
p=ht[j];
while (p && p->data!=k)
p=p->next;
if (p->data= =k) return p;
else {
q=new Node<int>; q->data=k;
q->next= ht[j];
ht[j]=q;
}
}
公共溢出区:
基本思想:
散列表包含基本表和溢出表两部分(通常溢出表和基本表的大小相同),
将发生冲突的记录存储在溢出表中。
查找时,对给定值通过散列函数计算散列地址,先与基本表的相应单元进行比较,若相等,则查找成功;否则,再到溢出表中进行顺序查找。