Squidcoder-CSDN博客

原创水塘抽样算法

水塘抽样算法（Reservoir Sampling Algorithm)，其目的在于从包含n个项目的集合S中选取k个样本，其中n为一很大或未知的数量，尤其适用于不能把所有n个项目都存放到内存的情况。

2023-08-05 10:48:58 242

增加一个矩阵：行数为小写字母的个数26，列数为5，第0列表示相隔一个字符串的两个字符串的长度总和的最大值，第1列为中间字符左侧字符串的长度，第2列为右侧长度，第3列记录了连续字符串的个数，第4列为标记第0列中字符串是由一个连续串的长度还是两个相隔一个字符的连续字符串长度之和。，你只能交换其中两个字符一次或者什么都不做，然后得到一些单字符重复的子串。解法：每次将最多交换一个字符，则交换前的两个字符串之间最多隔着一个字符；如果字符串中的所有字符都相同，那么这个字符串是单字符重复的字符串。

2023-06-03 14:48:03 183

原创 2559. 统计范围内的元音字符串数

解法：新建个临时数组（前缀和），存入从（0，index）的数目，然后最终（a，b）的数目=（0，b）-（0，a-1）以元音开头和结尾的字符串是 "aba"、"ece"、"aa" 和 "e"。查询 [1,4] 结果为 3（字符串 "ece"、"aa"、"e"）。查询 [0,2] 结果为 2（字符串 "aba" 和 "ece"）。每个字符串都满足这一条件，所以返回 [3,2,1]。这两个值）并且以元音开头和结尾的字符串的数目。返回一个整数数组，其中数组的第。查询 [1,1] 结果为 0。

2023-06-02 10:00:47 199

原创剑指 Offer 43. 1～n 整数中 1 出现的次数

假设n=[abcde],当前列为c，c的数值位小于1，则共出现了[ab00]个1，c大于1,则共出现了[ab00]+[100]个1，c等于1，则出现[ab00]+[de]+[1]个1。解法：按列计算1的个数，个位数中每10个出现1个1，十位数中每100个出现10个1，以此类推。例如，输入12，1～12这些整数中包含1 的数字有1、10、11和12，1一共出现了5次。，求1～n这n个整数的十进制表示中1出现的次数。最后，依次把每列的1的个数累加即可。

2023-06-01 14:14:03 138

原创剑指 Offer 37. 序列化二叉树

你需要设计一个算法来实现二叉树的序列化与反序列化。这里不限定你的序列 / 反序列化算法执行逻辑，你只需要保证一个二叉树可以被序列化为一个字符串并且将这个字符串反序列化为原始的树结构。输入输出格式与 LeetCode 目前使用的方式一致，详情请参阅。你并非必须采取这种方式，你也可以采用其他的方法解决这个问题。请实现两个函数，分别用来序列化和反序列化二叉树。

2023-05-31 12:03:12 92

原创 1130. 叶值的最小代价生成树

1.对节点权值排下序，在arrVal中记录从小到大的arr数组下标的顺序，安arrVal的顺序访问arr数组，每次都将当前节点的左右两边中最小节点合并（相乘的值加上res存到res），同时将该节点置为已访问。解法：由于深度越深的叶子节点会被计算更多次，则我们尽可能将权值小的节点放在更深一层，（类似于建立哈夫曼树）在所有这样的二叉树中，返回每个非叶节点的值的最小可能总和。有两种可能的树，第一种的非叶节点的总和为 36 ，第二种非叶节点的总和为 32。如果一个节点有 0 个子节点，那么该节点为叶节点。

2023-05-31 10:41:20 117

原创剑指 Offer 41. 数据流中的中位数

解法：建立一个大顶堆，一个小顶堆，大顶堆和小顶堆的容量只能相等或者大顶堆的容量只比小顶堆大1个，这样，当两者容量相等时，中位数就是大顶堆的最大值与小顶堆的最小值的平均数，否则就是大顶堆的最大值。如何得到一个数据流中的中位数？如果从数据流中读出奇数个数值，那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值，那么中位数就是所有数值排序之后中间两个数的平均值。[2,3] 的中位数是 (2 + 3) / 2 = 2.5。[2,3,4] 的中位数是 3。

2023-05-30 09:28:09 90

原创 1110. 删点成林

中出现，我们就把该节点从树上删去，最后得到一个森林（一些不相交的树构成的集合）。返回森林中的每棵树。你可以按任意顺序组织答案。解法：将删除数组转换成set，遍历整棵树。，树上每个节点都有一个不同的值。

2023-05-30 08:51:55 83

原创剑指 Offer 04. 二维数组中的查找

解法：先遍历首行和首列，找出准备搜索的行和列的最大值，将可能出现的范围限制在此，然后再暴力搜索即可。请完成一个高效的函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。在一个 n * m 的二维数组中，每一行都按照从左到右。的顺序排序，每一列都按照从上到下。给定 target =给定 target =

2023-05-29 22:26:37 82

原创 1093. 大样本统计

平均数是(1+1+1+1+2+2+2+3+3+4+4)/ 11 = 24 / 11 = 2.18181818…均值是(1+2+2+2+3+3+3+3) / 8 = 19 / 8 = 2.375。因为样本的大小是偶数，所以中位数是中间两个元素2和3的平均值，也就是2.5。用count表示的样本为[1,1,1,1,2,2,3,3,3,4,4]。用count表示的样本为[1,2,2,2,3,3,3,3]。众数为3，因为它在样本中出现的次数最多。众数为1，因为它在样本中出现的次数最多。在样本中出现的次数。

2023-05-27 20:04:36 104

原创 1091. 二进制矩阵中的最短路径

解法：BFS，每层BFS遍历的节点为当前步数能走到的最远节点。如果不存在这样的路径，返回。二进制矩阵中的畅通路径是一条从。是该路径途经的单元格总数。）到右下角单元格（即，

2023-05-26 14:27:23 156

原创 2451. 差值数组不同的字符串

除了 "bob" 的差值整数数组是 [13, -13] 以外，其他字符串的差值整数数组都是 [0, 0]。- "wzy" 的差值整数数组是 [25 - 22, 24 - 25]= [3, -1]。- "adc" 的差值整数数组是 [3 - 0, 2 - 3] = [3, -1]。- "abc" 的差值整数数组是 [1 - 0, 2 - 1] = [1, 1]。你需要找到那个不同的字符串。不同的数组是 [1, 1]，所以返回对应的字符串，"abc"。，每一个字符串长度都相同，令所有字符串的长度都为。

2023-05-25 20:16:41 96

原创 1090. 受标签影响的最大值

解法：将两个数组放入二维数组中，并按o[i][0]进行降序排序。依次读入values的值，并进行累加，同时对应的label值进行计数，如此时的label超过uselimit，则跳过对应value的读取。选出的子集是第一项，第三项和第五项。选出的子集是第一项，第二项和第三项。选出的子集是第一项和第四项。个元素的值和标签分别是。个元素中选择一个子集。

2023-05-23 12:22:05 89

原创 1080. 根到叶路径上的不足节点

解法：后序遍历，先遍历叶子节点，访问叶子节点时，判断根到该叶子的路径是否满足limit，不足则返回-1，对与非叶子结点，左右子树返回全为-1，则该节点也是不足节点，返回-1，同时，左（右）子树对应返回-1时，将左（右）孩子节点置为null。的每种可能的 “根-叶” 路径上值的总和全都小于给定的。，并返回最终二叉树的根节点。，请你同时删除树中所有。，就是没有子节点的节点。

2023-05-22 23:44:17 90

原创大数据平台速通倒排索引

查看jar包、goods.txt、goods_visit2.txt、goods_visit.txt是否在该文件夹。2. jar包上传至大数据平台的 /data/dataset。1. 编写mapreduce程序，编译成jar包。3. 进入 /data/dataset。5.启动HDFS和YARN。6. 上传文件至hdfs。

2023-05-21 22:36:26 117

原创 1373. 二叉搜索子树的最大键值和

1.判断该节点是否是搜索树要保证它的值小于右子树的最小值，大于左子树的最大值。2.如果当前节点已经不是搜索树，那么该节点的祖先节点均不是搜索树。键值为 2 的单节点子树是和最大的二叉搜索树。所有节点键值都为负数，和最大的二叉搜索树为空。键值为 3 的子树是和最大的二叉搜索树。解法：采用后序遍历此树，思路如下。二叉搜索子树的最大键值和。

2023-05-20 20:24:44 84

原创 idea连接liunx文件（idea在liunx部署java项目）

可以看到已经在liunx下运行并输出了结果。默认运行于本机，替换为目标liunx。idea->部署->浏览远程主机。idea->运行->编辑配置。右键项目->部署->上传到。选择要运行的主机和项目路径。idea->部署->配置。

2023-05-11 11:21:40 604

原创 MapReduce英语单词频次统计

或直接将下文的xml的“dependency”中的“version”改为自己的hadoop版本。上传jar文件和input文件夹至liunx的/data/temp。2. 如有/output文件夹，删除。此处以hadoop3.3.4为例。上传input至hdfs。请勿使用idea社区版。

2023-05-09 19:15:33 1690

原创大数据组件配置、部署

依次点击编辑虚拟机设置->CD/DVD->使用ISO镜像->浏览，选择下载的centos7的iso文件后点击确定。Hive ThriftServer方式（不可以直接写SQL，需要外部客户端连接使用）（进入文件后按i输入，esc退出输入，:q不报存退出，:wq保存并退出）直接下载好的jar文件通过finalShell上传至目标位置。直接下载好的文件通过finalShell上传至目标位置。后续依次下一步确定即可（可自行设置虚拟机的硬件配置）点击完成后，左侧‘我的计算机’显示刚安装的虚拟机。

2023-05-02 11:16:02 2091