前言:算法+数据结构=程序
什么是数据结构?
简单说,数据结构就是一个容器,以某种特定的布局存储数据。这个“布局”使得数据结构在某些操作上非常高效,在另一些操作上则没那么高效。所以,我们需要根据不同的问题场景选择最优的数据结构。
为什么我们需要数据结构?
由于数据结构用来以有组织的形式存储数据,而且数据是计算机中最重要的实体,数据结构的价值显而易见。
根据不同是场景,数据需要以特定格式存储。
常用的数据结构
- 数组 Array
- 栈 Stack
- 队列 Queue
- 链表 Linked List
- 树 Tree
- 堆 Heap
- 图 Graphs
- 字典树(Tries,这是一种高效的树,有必要单独列出来)
- 哈希表 Hash Table
数组
数组是一种最简单和最广泛使用的数据结构,用来连续存储同一类型值的集合(在内存分配中也是连续的),其他数据结构比如堆栈和队列都源自数组。
下图是一个长度为5的简单数组,包含几个元素(1,2,3,4,5)。
每个数据元素会被分配一个正的数值,叫作“索引”,它对应该元素在数组中的位置。大部分编程语言都将初始索引定义为 0.
数组分为:
- 一维数组(如上图所示)
- 多维数组(数组的数组)
数组的基本操作
- Insert —— 在给定索引位置插入一个元素
- Get —— 返回给定索引位置的元素
- Delete —— 删除给定索引位置的元素
- Size —— 获取数组内所有元素的总数
优点:
- 按照索引查询元素速度快
- 按照索引遍历数组方便
缺点:
- 数组的大小固定后就无法扩容
- 数组只能存储同一种类型的数据
- 添加,删除的操作慢,因为要移动其他的元素
适用场景:
频繁查询,对存储空间要求不大,很少增加和删除的情况。
栈
我们都熟悉很有名的撤销(Undo)选项,它几乎存在每个应用程序中。有没有想过它是如何工作的?其思路就是,按照最后的状态排列在先的顺序将工作的先前状态(限于特定数字)存储在内存中。这只用数组是无法实现的,因此堆就有了用武之地。
可以把栈看作一堆垂直排列的书籍。为了获得位于中间位置的书,你需要拿掉放在它上面的所有书籍。这就是 LIFO(后进先出)方法的工作原理。
栈的基本操作:
- Push —— 在顶部插入元素
- Pop —— 从栈中删除后返回顶部元素
- isEmpty —— 如果栈为空,则返回 true
- Top —— 返回顶部元素,但不从栈中删除
栈常应用于实现递归功能方面的场景,例如斐波那契数列。
队列
与栈类似,队列是另一种线性数据结构,以顺序方式存储元素。堆栈和队列之间唯一的显着区别是,队列不是使用 LIFO 方法,而是应用 FIFO 方法,这是 First in First Out(先入先出)的缩写。
队列的完美现实例子:一列人在售票亭等候。如果有新人来,他们是从末尾加入队列,而不是在开头——站在前面的人将先买到票然后离开队列。
队列的基本操作:
- Enqueue() —— 向队列末尾插入元素
- Dequeue() —— 从队列头部移除元素
- isEmpty() —— 如果队列为空,则返回 true
- Top() —— 返回队列的第一个元素
使用场景:因为队列先进先出的特点,在多线程阻塞队列管理中非常适用
链表
链表是另一个重要的线性数据结构,刚一看可能看起来像数组,但在内存分配,内部结构以及如何执行插入和删除的基本操作方面有所不同。
链表就像一个节点链,其中每个节点包含数据和指向链中后续节点的指针等信息。有一个头指针,指向链表的第一个元素,如果列表是空的,那么它只指向 null 或不指向任何内容。
链表用于实现文件系统,哈希表和邻接表。
下图是链表内部结构的直观展示:
链表分为:
- 单链表(单向)
- 双链表(双向)
- 循环链表
链表的基本操作:
- InsertAtEnd —— 在链表末尾插入指定元素
- InsertAtHead —— 在链表头部插入指定元素
- Delete —— 从链表中删除指定元素
- DeleteAtHead —— 删除链表的第一个元素
- Search —— 返回链表中的指定元素
- isEmpty —— 如果链表为空,返回 true
优点:
- 不需要初始化容量,可以任意加减元素
- 添加或者删除元素时只需要改变前后两个元素结点的指针域指向地址即可,所以添加,删除很快
缺点:
- 因为含有大量的指针域,占用空间较大
- 查找元素需要遍历链表来查找,非常耗时
适用场景:
数据量较小,需要频繁增加,删除操作的场景
树
树是一种层级数据结构,包含了连接它们的顶点(节点)和边。树和图很相似,但二者有个很大的不同点,即树中没有循环。
树广泛应用在人工智能和复杂的算法中,为解决各种问题提供高效的存储机制。
下图是一个简单的树,以及在树型数据结构中所用的基本术语:
树的特点:
- 每个节点有零个或多个子节点
- 没有父节点的节点称为根节点
- 每一个非根节点有且只有一个父节点
- 除了根节点外,每个子节点可以分为多个不相交的子树
下面是几种类型的树:
- N 叉树
- 平衡树
- 二叉树
- 二叉搜索树
- 平衡二叉树
- 红黑树
- B+树
其中,二叉树和二叉搜索树是最常用的树。
二叉树是树的特殊一种,具有如下特点:
- 每个结点最多有两颗子树,结点的度最大为2
- 左子树和右子树是有顺序的,次序不能颠倒
- 即使某结点只有一个子树,也要区分左右子树
二叉树有很多扩展的数据结构,包括平衡二叉树、红黑树、B+树等,这些数据结构二叉树的基础上衍生了很多的功能,在实际应用中广泛用到,例如mysql的数据库索引结构用的就是B+树,还有HashMap的底层源码中用到了红黑树。
字典树
字典树,也叫“前缀树”,是一种树形结构,在解决字符串相关问题中非常高效。其提供非常快速的检索功能,常用于搜索字典中的单词,为搜索引擎提供自动搜索建议,甚至能用于IP路由选择。
下面展示了“top”“thus”和“their”这三个词是如何存储在字典树中的:
这些单词以从上到下的方式存储,其中绿色节点“p”,“s”和“r”分别表示“top”,“thus”和“their”的末尾。
堆
堆是一种比较特殊的数据结构,可以被看做一棵树的数组对象,具有以下的性质:
- 堆中某个节点的值总是不大于或不小于其父节点的值
- 堆总是一棵完全二叉树
堆的定义如下:
n个元素的序列{k1,k2,ki,…,kn}当且仅当满足下关系时,称之为堆。
(ki <= k2i,ki <= k2i+1)或者(ki >= k2i,ki >= k2i+1), (i = 1,2,3,4…n/2),满足前者的表达式的成为小顶堆,满足后者表达式的为大顶堆,这两者的结构图可以用完全二叉树排列出来,示例图如下:
将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。常见的堆有二叉堆、斐波那契堆等。
因为堆有序的特点,一般用来做数组中的排序,称为堆排序。
图
图就是一组节点,以网络的形式互相连接。节点也被称为顶点(vertices)。一对(x,y)就叫做一个边,表示顶点 x 和顶点 y 相连。一个边可能包含权重/成本,显示从顶点 x 到 y 所需的成本。
按照顶点指向的方向可分为无向图和有向图:
在编程语言中,图可以表示为两种形式:
- 邻接矩阵
- 邻接列表
常见的图遍历算法:
- 广度优先搜索
- 深度优先搜索
哈希表
散列是一个用于唯一标识对象并在一些预先计算的唯一索引(称为“密钥”)存储每个对象的过程。因此,对象以“键值”对的形式存储,这些项的集合被称为“字典”。可以使用该键值搜索每个对象。有多种不同的基于哈希的数据结构,但最常用的数据结构是哈希表。
哈希表通常使用数组实现。
哈希数据结构的性能取决于以下三个因素:
- 哈希函数
- 哈希表的大小
- 碰撞处理方法
下图展示了如何在数组中映射哈希。该数组的索引是通过哈希函数计算的。
散列表是把Key通过一个固定的算法函数既所谓的哈希函数转换成一个整型数字,然后就将该数字对数组长度进行取余,取余结果就当作数组的下标,将value存储在以该数字为下标的数组空间里
优点:
- 实现了随机访问,读取速度很快
缺点:
- 哈希函数设计难度大,设计不全面容易引发hash冲突
解决哈希冲突的方法:
- 拉链法。在产生冲突的hash地址指向一个链表,将具有相同的key值的数据存放到链表中
- 建立一个公共溢出区。将所有产生冲突的数据都存放到公共溢出区