数据结构:数

复杂度 -- 一个关于输入数据量n的函数

时间复杂度 -- 昂贵

与代码的结构设计有着紧密关系

一个顺序结构的代码,时间复杂度是O(1), 即任务与算例个数 n 无关

空间复杂度 -- 廉价

与数据结构设计有关

数据结构 -- 考虑如何去组织计算机中一定量的数据。

数据结构连接时空,用空间换取时间。

数据处理 -- 了解问题,明确数据操作方法,设计出更加高效的数据结构类型

找到需要处理的数据,计算结果,再把结果保存下来

把结果存到新的内存空间中

把结果存到已使用的内存空间中

基本操作只有三个:增,删,查

增和删可以细分为数据结构的中间以及最后的增和删

查找可以细分为按照位置条件查找和数据数值特征查找

所有数据处理都是这些基本操着的组合和叠加

只有字典类型数据结构能在 O(1) 的时间复杂度内完成查找动作

回归问题本源,明确数据被处理的动作,来解决数据结构的问题

想了解更多,欢迎关注我的微信公众号:Renda_Zhang

线性表

n 个具有相同特性的元素的有限序列,Linear List

数据元素之间的关系是一对一的关系

即除了头尾元素外,其它数据元素都是首尾相接的

这句话只适用大部分线性表,而不是全部

比如,循环链表尾的指针指向首位结点

实现方式

最常用的是链式表达,也叫线性链表或链表

每个结点包括具体的数据值和指向下一个结点的指针

单向链表,循环链表,双向链表,双向循环链表

新增和删除为 O(1) 时间复杂度,而查找为 O(n)

适合数据元素个数不确定,且经常进行新增和删除

链表的翻转,快慢指针的方法,是必须掌握的内容

使用数组实现,也叫顺序存储,顺序表

类别

一般线性表,可以自由的删除和添加结点

受限线性表,主要包含栈和队列

栈和队列是特殊的线性表,本质上他们都可以被看作是一类基本结构

线性表案例

链表的翻转

快慢指针

查找奇数个数的链表的中间位置结点的数值

判断链表是否有环


后进先出的(限制后的)线性表,Last In First Out, Stack.

新增和删除操作只能在这个线性表的表尾进行,即在线性表基础上加了限制

新增: 压栈 push, which adds an element to the collection

删除: 出栈 pop, which removes the most recently added element

功能上,数组或者链表可以代替栈,但它们灵活性过高,数据量大时有风险

栈顶和栈底是用来表示这个栈的两个指针

栈顶 (top) 是表尾,用来输入数据

栈底 (bottom) 是表头

栈有顺序表示和链式表示,分别称作顺序栈和链栈

顺序栈

可以借助数组来实现

数组的首元素存在栈底,尾元素放在栈顶

定义指针 top 来指示栈顶元素在数组的位置

栈中只有一个元素,则 top = 0

以 top 是否为 -1 来判定是否为空栈

栈顶 top 需小于栈的最大容量

出栈操作,只需要 top - 1 即可

链式栈

用链表的方式实现

通常把栈顶放在单链表的头部

top 指针替换了链表原来的尾指针,去掉了头指针

出栈操作,将 top 指针指向栈顶元素的 next 指针即可

对比栈和一般线性表

相同点:

操作原理相似

时间复杂度一样

都依赖当前位置指针进行数据对象的操作

区别:栈只能新增和删除栈顶的数据结点

栈的案例

判断括号字符串是否合法

浏览器页面访问的后退和前进


队列

先进先出 (限制后的) 线性表, First In First Out, Queue

新增和删除操作只能分别在队尾和队头进行

先进 - 队列的数据新增操作只能在末端进行, add

不允许在队列的中间某个结点后新增数据

先出 - 队列的数据删除操作只能在始端进行, remove

不允许在队列的中间某个结点后删除数据

队列适合面对数据处理顺序非常敏感的问题

可以确定队列长度最大值, 建议使用循环队列

无法确定队列长度时, 应考虑使用链式队列

front 和 rear 两个指针

队头 (front), 用来删除数据

队尾 (rear), 用来增加数据

队列有两种存储方式, 即顺序队列和链式队列

顺序队列

依赖数组来实现

数据在内存中也是顺序存储

进行新增插入操作时,

尾指针会向后移动

时间复杂度为 O(1)

如果只删除头的第一个元素时

每次删除都需要把整个数组前移

时间复杂度为 O(n)

使用循环队列

必须有一个固定的长度

实现删除的时间复杂度为 O(1)

使用 flag 来判断队列空或满

链式队列

依赖链表来实现

数据依赖每个结点的指针互联

是离散存储线性结构

实际上就是尾进头出的单链线性表

在空间上更为灵活

通常会增加一个头结点

让 front 指针指向头结点

头结点不存储数据, 只是辅助标识

当进行数据删除时, 实际删除的是头结点的后继结点

队列为空时, 头尾指针都指向头结点

对比队列和一般线性表

队列继承了线性表的优点和不足

是加了限制的线性表

队列案例

约瑟夫环 - Josephus problem


数组

数组可以看成是线性表的一种推广,它属于另外一种基本的数据结构

数组是数据结构中的最基本结构

几乎所有的程序设计语言都把数组类型设定为固定的基础变量类型。

可以把数组理解为一种容器,它可以用来存放若干个相同类型的数据元素。

例如:

存放的数据是整数型的数组,称作整型数组;

存放的数据是字符型的数组,则称作字符数组;

另外还有一类数组比较特殊,它是数组的数组,也可以叫作二维数组。

可以把普通的数组看成是一个向量,那么二维数组就是一个矩阵。

数组在内存中是连续存放的,数组内的数据,可以通过索引值直接取出得到。

数组的索引就是对应数组空间

在进行新增、删除、查询操作的时候,完全可以根据代表数组空间位置的索引值进行。

只要记录该数组头部的第一个数据位置,然后累加空间位置即可。

数组的基本操作

具有增删困难、查找容易的特点,可以在任意位置增删数据,所以数组的增删操作会更为多样。

新增操作

若插入数据在最后,则时间复杂度为 O(1)

如果中间某处插入数据,则时间复杂度为 O(n)

删除操作

在数组的最后删除一个数据元素,则时间复杂度是 O(1)

在这个数组的中间某个位置删除一条数据, 时间复杂度为 O(n)

查找操作

如果只需根据索引值进行一次查找,时间复杂度是 O(1)

要在数组中查找一个数值满足指定条件的数据,则时间复杂度是 O(n)。

对比数组和链表

链表的长度是可变的,数组的长度是固定的,在申请数组的长度时就已经在内存中开辟了若干个空间。如果没有引用 ArrayList 时,数组申请的空间永远是我们在估计了数据的大小后才执行,所以在后期维护中也相当麻烦。

链表不会根据有序位置存储,进行插入数据元素时,可以用指针来充分利用内存空间。数组是有序存储的,如果想充分利用内存的空间就只能选择顺序存储,而且需要在不取数据、不删除数据的情况下才能实现。

数组的案例

基于数组,计算平均值


字符串

由 n 个字符组成的一个有序整体( n >= 0 )

对比字符串和线性表

字符串的逻辑结构和线性表极为相似,区别仅在于串的数据对象约束为字符集。

字符串的基本操作和线性表有很大差别:

在线性表的基本操作中,大多以“单个元素”作为操作对象;

在字符串的基本操作中,通常以“串的整体”作为操作对象;

字符串的增删操作和数组很像,复杂度也与之一样。但字符串的查找操作就复杂多了,它是参加面试、笔试常常被考察的内容。

特殊的字符串

空串,指含有零个字符的串。例如,s = "",书面中也可以直接用 Ø 表示。

空格串,只包含空格的串。它和空串是不一样的,空格串中是有内容的,只不过包含的是空格,且空格串中可以包含多个空格。例如,s = " ",就是包含了 3 个空格的字符串。

子串,串中任意连续字符组成的字符串叫作该串的子串。

原串通常也称为主串。

字符串的存储结构与线性表相同,也有顺序存储和链式存储两种

字符串的顺序存储结构,是用一组地址连续的存储单元来存储串中的字符序列,一般是用定长数组来实现。有些语言会在串值后面加一个不计入串长度的结束标记符,比如 \0 来表示串值的终结。

字符串的链式存储结构,与线性表是相似的,但由于串结构的特殊性(结构中的每个元素数据都是一个字符),如果也简单地将每个链结点存储为一个字符,就会造成很大的空间浪费。因此,一个结点可以考虑存放多个字符,如果最后一个结点未被占满时,可以使用 "#" 或其他非串值字符补全。

每个结点设置字符数量的多少,与串的长度、可以占用的存储空间以及程序实现的功能相关。

除了在连接串与串操作时有一定的方便之外,不如顺序存储灵活,在性能方面也不如顺序存储结构好。

字符串的基本操作

新增操作

和数组非常相似,都牵涉对插入字符串之后字符的挪移操作,所以时间复杂度是 O(n)。

对于特殊的插入操作时间复杂度也可以降低为 O(1)。例如,在 s1 的最后插入 s2,也叫作字符串的连接。

删除操作

和数组同样非常相似,也可能会牵涉删除字符串后字符的挪移操作,所以时间复杂度是 O(n)。

对于特殊的删除操作时间复杂度也可以降低为 O(1)。例如,在 s1 的最后删除若干个字符,不牵涉任何字符的挪移。

查找操作

子串查找(字符串匹配)

在字符串 A 中查找字符串 B,则 A 就是主串,B 就是模式串。

主串的长度记为 n,模式串长度记为 m,则n>m。

字符串匹配算法的时间复杂度就是 n 和 m 的函数。

字符串匹配算法的案例

查找出两个字符串的最大公共字串


树和二叉树

树 -- Tree

树结构在存在“一对多”的数据关系中,可被高频使用,这也是它区别于链表系列数据结构的关键点。

树是由结点和边组成的,不存在环的一种数据结构。

树满足递归定义的特性。如果一个数据结构是树结构,那么剔除掉根结点后,得到的若干个子结构也是树,通常称作子树。

树的结点的层次从根结点算起,根为第一层,根的“孩子”为第二层,根的“孩子”的“孩子”为第三层,依此类推。

树中结点的最大层次数,就是这棵树的树深(称为深度,也称为高度)。

二叉树 -- Binary Tree

二叉树每个结点最多有两个子结点,分别称作左子结点和右子结点。

二叉树中两个特殊的类型

满二叉树,定义为除了叶子结点外,所有结点都有 2 个子结点。

完全二叉树,定义为除了最后一层以外,其他层的结点个数都达到最大,并且最后一层的叶子结点都靠左排列。它方便了顺序存储法的存储方式。

存储二叉树的两种办法

链式存储法,也就是像链表一样,每个结点有三个字段,一个存储数据,另外两个分别存放指向左右子结点的指针。

顺序存储法,就是按照规律把结点存放在数组里。如图所示。

树的基本操作

遍历

前序遍历,对树中的任意结点来说,先打印这个结点,然后前序遍历它的左子树,最后前序遍历它的右子树。

public static void preOrderTraverse(Node node) {

if (node == null)

return;

System.out.print(node.data + " ");

preOrderTraverse(node.left);

preOrderTraverse(node.right);

}

中序遍历,对树中的任意结点来说,先中序遍历它的左子树,然后打印这个结点,最后中序遍历它的右子树。

public static void inOrderTraverse(Node node) {

if (node == null)

return;

inOrderTraverse(node.left);

System.out.print(node.data + " ");

inOrderTraverse(node.right);

}

后序遍历,对树中的任意结点来说,先后序遍历它的左子树,然后后序遍历它的右子树,最后打印它本身。

public static void postOrderTraverse(Node node) {

if (node == null)

return;

postOrderTraverse(node.left);

postOrderTraverse(node.right);

System.out.print(node.data + " ");

}

二叉树的增删查操作很普通,时间复杂度与链表并没有太多差别

二叉查找树 -- Binary Search Tree, BST

特性

在二叉查找树中的任意一个结点,其左子树中的每个结点的值,都要小于这个结点的值。

在二叉查找树中的任意一个结点,其右子树中每个结点的值,都要大于这个结点的值。

在二叉查找树中,会尽可能规避两个结点数值相等的情况。

对二叉查找树进行中序遍历,就可以输出一个从小到大的有序数据队列。

查找操作 -- 利用了“二分查找”,所消耗的时间复杂度为 O(logn)。

首先判断根结点是否等于要查找的数据,如果是就返回。

如果根结点大于要查找的数据,就在左子树中递归执行查找动作,直到叶子结点。

如果根结点小于要查找的数据,就在右子树中递归执行查找动作,直到叶子结点。

插入操作

插入操作很简单。从根结点开始,如果要插入的数据比根结点的数据大,且根结点的右子结点不为空,则在根结点的右子树中继续尝试执行插入操作。直到找到为空的子结点执行插入动作。

二叉查找树插入数据的时间复杂度是 O(logn)。这里的时间复杂度更多是消耗在了遍历数据去找到查找位置上,真正执行插入动作的时间复杂度仍然是 O(1)。

删除操作

情况一,如果要删除的结点是某个叶子结点,则直接删除,将其父结点指针指向 null 即可。

情况二,如果要删除的结点只有一个子结点,只需要将其父结点指向的子结点的指针换成其子结点的指针即可。

情况三,如果要删除的结点有两个子结点,则有两种可行的操作方式:

第一种,找到这个结点的左子树中最大的结点,替换要删除的结点。

第二种,找到这个结点的右子树中最小的结点,替换要删除的结点。

树的案例

字典树 -- Dictionary Tree

第一,根结点不包含字符;

第二,除根结点外每一个结点都只包含一个字符;

第三,从根结点到某一叶子结点,路径上经过的字符连接起来,即为集合中的某个字符串。


哈希表

哈希表 -- Hash Table, 也叫作散列表。

哈希表是一种特殊的数据结构,它与数组、链表以及树等我们之前学过的数据结构相比,有很明显的区别。

线性表中的栈和队列对增删有严格要求,它们会更关注数据的顺序。

数组和字符串需要保持数据类型的统一,并且在基于索引的查找上会更有优势。

树的优势则体现在数据的层次结构上。

哈希表优势体现在,无论有多少数据,查找、插入、删除只需要接近常量的时间,即 O(1)的时间级。

核心思想

实现 “地址 = f (关键字)” 的映射关系,快速完成基于数据的数值的查找。

哈希函数的设计

直接定制法

哈希函数为关键字到地址的线性函数。如,H (key) = a*key + b。 这里,a 和 b 是设置好的常数。

数字分析法

假设关键字集合中的每个关键字 key 都是由 s 位数字组成(k1,k2,…,Ks),并从中提取分布均匀的若干位组成哈希地址。

平方取中法

如果关键字的每一位都有某些数字重复出现,并且频率很高,我们就可以先求关键字的平方值,通过平方扩大差异,然后取中间几位作为最终存储地址。

折叠法

如果关键字的位数很多,可以将关键字分割为几个等长的部分,取它们的叠加和的值(舍去进位)作为哈希地址。

除留余数法

预先设置一个数 p,然后对关键字进行取余运算。即地址为 key mod p。

解决哈希冲突

开放定址法

常用的探测方法是线性探测法。比如有一组关键字 {34,35,36,45},采用的哈希函数为 key mod 11。当插入 34,35,36 时可以直接插入,地址分别为 1、2、3。而当插入 45 时,哈希地址为 45 mod 11 = 1。然而,地址 1 已经被占用,因此沿着地址 1 依次往下探测,直到探测到地址 4,发现为空,则将 45 插入其中。

链地址法

将哈希地址相同的记录存储在一张线性链表中。如果出现冲突,就在对应的位置上加上链表的数据结构。

哈希表的基本操作

哈希表中的增加和删除数据操作,不涉及增删后对数据的挪移问题

如果是采用数组实现就需要考虑数据的挪移问题

哈希表查找的细节过程是:对于给定的 key,通过哈希函数计算哈希地址 H (key)。

如果哈希地址对应的值为空,则查找不成功。

反之,则查找成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值