C++总结（二）

列宁格勒的街头

已于 2023-08-02 22:12:53 修改

阅读量443

点赞数

文章标签： c++ 开发语言

于 2023-04-11 02:39:24 首次发布

本文链接：https://blog.csdn.net/weixin_60320290/article/details/130045167

版权

二叉搜索树（搜索二叉树、二叉排序树）

二叉搜索树又称二叉排序树，它要么是一棵空树，要么是具有以下性质的二叉树：
1.若它的左子树不为空，则左子树上所有节点的值都小于根节点的值

2.若它的右子树不为空，则右子树所有节点的值都大于根节点的值

3.它的左右子树也分别为二叉搜索树

搜索二叉树的查找：

最多查找高度次，效率较高

搜索二叉树具有排序+去重的功能

叫它二叉排序树是因为中序遍历时，其遍历结果就是一个有序的结果。

二叉搜索树的删除

替换法删除的代码实现

按照上面的写法同时解决两种情况（即上述和下述情况）是会出错的（指针问题）。

二叉搜索树不支持修改。

二叉搜索树的缺陷：

二叉搜索树的增删查的时间复杂度：O(h)，最坏的情况是h = N

改进方案：平衡树：主要是AVL树和红黑树

平衡树和搜索树仅仅只是效率的区别，功能上并没有区别。

二叉搜索树的应用

Key的搜索模型：判断关键字在不在。

1.例如：宿舍门禁

（二叉搜索树还可以顺便排序+去重）

2.检查一篇英文文档中单词拼写是否正确

我们可以把词库中的单词都插入到一棵搜索树中，然后查的时候就查在不在这里面，不在就说明单词有问题

Key/Value模型：通过Key去找value

1.简单的中英翻译程序

2.统计水果出现的次数

具体实现：第二十七节2:40:00到完只听了一遍

map和set

STL分为序列式容器（vector、list、deque）和关联式容器（map、set）

序列式容器：数据与数据之间没有很强的联系。（各个数据之间没什么关联）。底层为线性序列的数据结构，里面存储的是元素本身。栈和队列是适配器。

关联式容器：数据和数据之间有很强的关联关系（在数据检索时比序列式容器效率更高。底层是红黑树，再底层是一棵搜索树。）

set

set的本质是Key模型。典型的set底层是二叉搜索树

Compare是一个仿函数，用来比较。默认给的是less，相当于operator<，我们可以传别的，来控制这里的比较规则、比较方式。

key_comp/value_comp获取key/value的比较器。提供它两是为了保持set与map的一个兼容

set支持增删查，不支持修改，因为Key模型的底层是二叉搜索树，其一旦被修改，整个树就有可能错误了，所以是不允许修改的。

set的拷贝构造赋值都是深拷贝，而且是一棵树，消耗比较大。

lower_bound、upper_bound

删除30-60

itlow = lower_bound(30);//返回大于等于30这个的值的位置//如果给35，则是40到60

itup = upper_bound(60);//返回大于60这个的值的位置，这里返回的是70//如果给55，返回的是60的位置，但是因为是左闭右开，所以60并没有被删掉

//10 20 30 40 50 60 70 80 90

set.erase(itlow, itup);//删除30到70所括住的区间[30, 70）

equal_range

x <= val < y（左闭右开）

map

map底层存储的结构是pair，pair是一个模板的键值对。map的底层是一棵树

pair的原型大致为

这是SGI-STL原码中对于键值对的定义

这里能不能用auto推导？不能，它推不出来

因为其插入时，只看key，val相不相同无所谓，但是map不支持冗余，所以只要key有了，就不支持再插入了。

其实也不用typedef pair

我们可以用make_pair。前面的都是调用构造。而make_pair是一个函数模板，它的实现方式大致如下，它的优势就是自动推导，不需要我们显式地写模板参数了。make_pair是构造一个匿名pair然后返回

一般被定义成inline

有时候有些头文件我们每包含，但是我们仍能使用的原因：

它们被其他头文件包含了。

map的遍历

void test_map1()
{
	map<string, string> dict;
	pair <string, string> kv1("hello","你好");
	dict.insert(kv1);
	dict.insert(make_pair("sort", "排序"));
	dict.insert(make_pair("push", "插入"));
	dict.insert(make_pair("pop","删除"));

	//dict.insert(make_pair("hello", "hi"));//优势：自动推导类型，不用显式地写模板参数

	//map的遍历
	map<string, string>::iterator it = dict.begin();
	//auto it = dict.begin();
	while (it != dict.end())
	{
	    cout << it->first << it->second << endl;
		//cout << (*it).first <<(*it).second << endl;//pair不支持流插入，它没有重载流插入。
		//我们用kv键值对
		++it;
	}
	cout << endl;
	for (const auto& kv : dict)
	{
		cout << kv.first << ":" << kv.second << endl;
	}
	cout << endl;

}

map和set的迭代器都是双向迭代器，也就是可以正向和反向遍历。

第三十节00:11:00-00:25:00 将双箭头做特殊处理只看了一遍，没笔记，代码只写了一点

map中的[]

它去容器里找k对应的元素，然后返回对应的value。如果这个key没有被匹配到，它会插入一个新的元素，这个元素就用这个key，然后返回它的映射类型，如果它没有对应的映射类型，value用它的默认构造（default constructor）

即：

1.map中有这个key，返回value的引用（可用于查找，修改value）

2.map中没有这个key，会插入一个新元素，该元素为pair(key, V()); ，返回value（这里的value就是pair里自动创建的value）的引用（可用于插入，修改） V()是value类型的匿名对象。这个value是一个缺省值，该value如果是int类型，则其缺省值为0，若为string，则其为""，若为指针，则其为nullptr

[]的底层是这样实现的

map中的insert

上面的value_type实际上就是pair<K, V> val;

返回的不是true和false，而是pair

insert一个值，如果已经有这个值了，就不插入，bool就是false。如果没有，那就插入，bool是true

再讲解：

返回一个pair，pair的first被设置为迭代器，这个迭代器指向新插入的元素或者是跟这个key相等的元素，second是bool，如果插入成功，返回true。如果插入失败（即有key与它相等），则返回false。

即

插入时只看key。

1.key已经在map中，返回pair<key_iterator, false>//返回新插入元素的迭代器或与这个值相等的元素的迭代器；如果与key相等的元素已经存在，返回false（即已存在且相等的话，返回false）

2.key不在map中，返回pair(new_key_iterator, true);

第三十节1:06:30-1:15:00模拟实现[]

insert返回pair就是为[]准备的。

multimap为什么没有[]呢？

因为它允许键值冗余了，例如我们要返回苹果，我们应该返回哪次苹果来时的value呢？multi也不能用之前的代码帮我们统计次数了，因为它可以多次插入一样的值。

multimap也是看key，但是不管key有没有出现过，它都是插入，value相不相同无所谓

两个题：第三十节1:38:40-2:58:00

unordered_map、unordered_set

map/set与unordered系列的区别

1.map和set遍历是有序的，该类为无序

2.unordered系列只有单向迭代器，map和set是双向迭代器

数据越多，unordered系列效率更高，但是它的插入稍微差一点，因为它插入时要扩容，扩容的代价有点大

unordered系列的优点：

在处理大量数据时，其增删查改效率更优，尤其是查找。

当我们遇到这种情况时（一个不能被运算的类型需要运算）。

unordered_map里有一个参数帮助我们解决这种情况。hash<Key>

hash<Key>是一个仿函数，

所以要在这里添加一个Hash的仿函数

AVL树（以人名命名，但也叫高度平衡二叉搜索树）

二叉搜索树虽然可以缩短查找效率，但在数据有序或接近有序时，二叉搜索树可能会退化为单支树，其查找元素相当于在顺序表中搜索元素，效率会比较低。如何解决呢？

用AVL树。尝试控制平衡。控制平衡的核心是红黑树

当向二叉搜索树中插入新结点后，如果能保证每个结点的左右子树高度之差的绝对值不超过1（需要对树中的结点进行调整，即旋转），即可降低树的高度，从而减少平衡搜索长度。

一棵AVL树要么是空树，要么是具有以下性质的二叉搜索树：

1.它的左右子树都是AVL树（其任意一棵子树都是AVL树）

2.左右子树高度之差（简称平衡因子）的绝对值不超过（-1/0/1）（第2点非必须，因为有些地方用平衡因子，有些地方不用。即可以用平衡因子，也可以不用。我们用平衡因子是为了方便实现）

平衡因子 = 右子树高度 - 左子树高度

为什么AVL树是控制高度平衡，而不是让高度相等呢？

做不到，假设插入两个结点，如何保证两边平等？所以是控制高度平衡，不是让高度相等。

如果一棵二叉搜索树是高度平衡（AVL树是通过控制高度来控制它的平衡的）的，它就是AVL树，如果它有n个结点，其高度可保持在log以2为底的N次方，搜索的时间复杂度为。

为什么AVL树需要三叉链呢？

因为插入一个节点后，需要看平衡因子。

红黑树

红黑树：最长路径不能超过最短路径的2倍（AVL树要求左右高度差不超过1，对于平衡较为严格，红黑树没有那么严格，以此来达成：插入同样的数据，AVL树旋转更多，红黑树旋转更少）

AVL树的增删查改的时间复杂度都是logN。为什么有AVL树还需要红黑树呢？

在实际中，AVL树用的比较少，且红黑树在其基础上做了优化。

一棵红黑树的（可能为）最短路径为：全黑的那条。最长路径为红黑交错的那一条

由AVL树的严格平衡到红黑树的近似平衡。

红黑树达到的效果：相对来说，插入同样的数据，AVL树的旋转较多，红黑树的旋转较少

红黑树的缺点：插入同样多的值时，AVL树最多查找接近logN次，红黑树最多查找接近2*logN次。AVL树的树高为logN，红黑树的最短路径接近logN，最长路径接近2*logN

红黑树的路径是要算到空的，不然有些地方会出问题

红黑树的路径：

路径是要算到空节点的

为什么要加NIL结点(叶节点)呢？到空才算路径完，所以上面有11条路径，算路径上的红/黑结点时，算不算NIL结点都可以

不能两个都是黑的，第二个结点必然是红的，不然会相悖

其不满足条件4

NIL之所以画成黑色，是一种特殊情况，例如是一棵空树，那么即其为空

为什么满足了上面的性质，红黑树就能保证其最长路径中的节点数不会超过最短路径节点数

的二倍呢？

因为2、3、4这三条规则互斥。若有一棵树，该树极限最短为：全黑

极限最长为：(一黑一红)*n

新插入结点，插入什么颜色？

限制红结点个数：规则3

限制黑结点个数：规则4

所以我们选择插入红色结点，规则三不一定有什么影响，规则四可能会影响所有路径

只要插入，父亲是红的，一定要把父亲变黑。

没说不能有连续的黑

哈希/散列

哈希/散列是基于关联映射的一种查找，本质是让值跟存储位置建立映射的关联关系，

值跟存储位置建立映射关联关系

常用除留余数法，但是这样会使得不同的值映射相同的位置，引起哈希冲突/哈希碰撞

我们有几种方法解决哈希冲突

1.闭散列--开放定址法

2.开散列--拉链法/哈希桶（库里用的是这种，这种更好）

闭散列思路：往后找一找没有被占用的位置。

闭散列的方法：

1.线性探测

2.二次探测

线性探测在这种极端情况下，很坑

下图：

如果删除3，然后查找20，会发现3这里是空的，会很坑。明明20在，但是我们却找不到。

注意：需要考虑表满了并且找一轮都没找到的情况且没有空位置来结束while循环。
所以哈希表引入了“负载因子”。

负载因子越小，冲突的概率越小。负载因子越大，冲突的概率越大。

注意，当负载因子到了一个基准值就扩容。基准值越大，冲突概率越大，效率越低，但是空间利用率越高。一般限制在0.7-0.8以下

我们可以用二次探测法（不是探测两次的意思）

是按i的平方来探测

开散列-拉链法、哈希桶

哈希桶时间复杂度看平均。

其他：

1.一般寄存器是4byte或8byte

2.栈是向下生长，堆是向上生长

智能指针是解决内存泄漏的恶一个东西，不是指针

CPU只认识二进制的机器码

输入的数据一定在内存里，数据量很大时，不是存在内存中，可能是存在文件或磁盘中

管理：先描述，再组织

delete、virtual一个关键字两种作用

ctrl c是杀掉进程，ctrl z呢。为什么也能关闭进程

emplace涉及到右值引用

string支持单参数的隐式类型转换

第三十节 43:00 int、double、指针的缺省值

哈夫曼树不是一个存储型的数据结构。哈夫曼树是一个特性型的，功能型的数据结构。它的其中一个用途是通过哈夫曼树生成哈夫曼编码，哈夫曼编码可以用来文件压缩。

什么是左值？什么是左值引用？

左值的特点：可以取地址。左值引用就是给左值取别名

以下都是左值