代码健身摩托gucci上海-CSDN博客

原创 Flink实时计算框架

如果并行度很高，而数据类别很少，那么一般只会有一个并行度来处理数据，这个并行度的waterMask水位线会随着数据提升，但是由于其它并行度没有数据，他们的waterMask水位线一直是0，而waterMask的原理是想要触发计算我只能由你水位线最低的那个并行度来作为基准。这个不一定的，要看你的source是什么，比如你的source是kafka就不会丢失，他可以重复提取数据，但如果数据源是串口比如端口之类的，就会丢失。水印的出现就是为了应对数据延迟，数据乱序，来进行延迟计算。

2023-03-14 14:56:25 299 1

原创 spark shuffle·读写流程和 rdd持久化

1.对比mapreduce和spark mapreduce里 map的第3条就是说，比如我存了很多条数据，如果一条一条写进磁盘，肯定有很多次IO，我先归并到一个缓存里面再溢写磁盘。spark与其的差别就是用map代替了buffer，因为map存的key唯一，用map的话可以直接完成combiner操作，且map的key里也有分区的key，避免了一定的排序操作。除此之外，spark溢写也是必须触发磁盘的但是多次利用的数据可以放入内存=======================================

2022-12-03 16:10:45 372

原创 spark-core-源码、Worker启动、sparksubmit提交、Driver启动

在提交我们写好的jar包时候，用到submit命令，他的源码解析流程如上图位于deploy里的SparkSubmit里面，根据main方法一点点run进去，分配我们传的参数，尤其是MainClass这个东西就是我们要先执行的一个位置，他根据我们设置的deploy-mode来进行选择在分配参数的时候，deploy-mode如果是client模式，直接MainClass为我们jar包去执行。

2022-11-24 09:42:18 503

原创 spark分布式计算框架

MapReduce是计算逻辑清晰的，只有两个步骤，任务是JVM进程级别，每执行到什么步骤去申请具体的资源。而spark根本不知道具体有几个stage，逻辑未知，每个人的job stage等根本不知道。它是默认倾向于抢占资源的，他会在sparkContext（）这个函数执行的时候，直接根据下面textFile（）代码逻辑抢占所有资源，任务以JVM线程的级别泡在Excutor里面。

2022-11-18 19:54:45 1106

原创链表算法套路

3. 设pre cur cur_next指针（主要就是这个pre）然后正常遍历pre = pre.next就行。返回的时候可以返回newHead.next；5. 哈希表永远是判断有没有重复的第一选择（判断环形）2. 设一个cur 一个cur_next。1. 两指针一起走快慢指针。4. 递归yyds。

2022-11-18 09:30:37 76

原创 spark-core 源码

就是计算一下你读取的文件一共将分成多少个切片（或者说分区）首先切片大小肯定小于物理文件块的大小用的是 InputFormat接口下的 FileInputFormat2.compute这个函数是指明我已经分区好了，未来我这个计算要向分区所在的哪个地方移动去，也就是计算向数据移动我要找文件所在物理块号这个函数其实返回的就是一个迭代器，里面有hasNext（）和getNext()方法1. cartesian笛卡尔积笛卡尔积操作 cartesian函数。

2022-11-14 16:45:03 867

原创那种输出全部组合的List＜List＜Integer＞＞题

这种因为是要输出全部可能的组合而不是组合的数量，所以一定要恢复现场也就是回溯法最常见类型有组合总和 1 2 3 4。

2022-11-14 10:45:44 349

原创日志收集项目遇到的问题

是Hadoop版本3.3.x高了导致的兼容问题，要么就是hdfs进入安全模式了，但是实际上通过对hbase/conf/hbase-env.sh修改，去掉注释export HBASE_DISABLE_HADOOP_CLASSPATH_LOOKUP="true"后，可以再试试，成功执行。运行Hadoop的mr程序:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String；主要是本地运行hadoop要添加本地的环境变量。

2022-11-06 20:18:24 869

原创 Hbase-LSM树

而LSM树它采用的是一种先把东西放内存这个是c0树，还有一个c1树用来存储合并结果的，他也放在磁盘里面（但他并不是最终的一个持久化结果），然后我每次c0存个差不多的时候，我采用了一种追加合并的方式合并到c1里面，批量存到磁盘里面。两边的东西我只是追加的形式插入数据，并不是修改的形式。由于我c0 c1都是有序的结构最终存进磁盘里面也是有序的，所以我未来hfile合并直接归并查找，我读的时候也能用二分查找的方式，包括最后我读用了最小堆，它只需要查找到rowkey的一个起始行即可，就。

2022-10-24 17:14:11 552

原创 Hbase 表设计

首先要写一个表。

2022-10-24 10:59:47 1510

原创搭建Hbase

1.解压2.删这个不影响3.改环境变量 vi /ect/profile4. 编写hbase-env解开注释重新写一个javahome：！ls /usr/java 可以在vi界面搜索外面的东西。

2022-10-22 10:47:08 470

原创 Hbase

二、 Hbase简介面向行就是类似于mysql那种，一行存储许多字段，即使那个字段没有初始化，他也会给他占用存储空间，比较浪费面向列后面说但是他类似于k，v键值对非结构化数据比如爬虫爬的html标签半结构化数据 json 每个json里面的kv都是不一样的结构化数据就是mysql那种每条信息的字段我都是自定义好的。

2022-10-20 17:10:49 284

原创树的奇y巧技

w

2022-10-19 11:26:51 92

原创路径总和问题

1. 方法就两种普通dfs和双层dfs（也就是for循环遍历每一个节点）2. 有的情况比如你要操作到全局变量的时候必须恢复现场。

2022-10-16 09:53:21 69

原创边走边维护一定要会的技巧

边走边维护，就是说，有时候你需要两层循环或循环两次才能做的一件事，你只用一次循环直接做完。思想就是我平常喜欢把东西都处理好了再分配应该分配的东西。这个就是边处理边分配，尤其是找最大东西。比如求一个数组里面最大的两个数和。

2022-10-08 18:51:23 52

原创动态规划-零钱兑换合集

322的零钱兑换，他要的是最小值，也就是说 index法和for循环森林法都可以用，因为即便森林法重复了！我在取最小min的时候会过滤掉，只是我多算了一会儿而已。但是这个方法无法解决要求你先后拿的钱顺序不一样那种题，比如 377的组合总和。518的零钱兑换，他要求的是一共多少取钱方法，我就不能用森林法，因为有重复序列。377的组合总和这种，对序列先后顺序要求严的就用 for循环内部函数方法。也就是森林法里面，我外部循环是可变参数，内部是数组值。而518的dp 外部是数组值，内部是可变参数。

2022-10-05 20:01:12 97

原创 leetcode动态规划被虐

他要输出的是真实的子串，不是他的子串长度。所以普通的递归解决不了问题。只能暴力列举法+递归递归用 left和right 左右两边开弓，且记忆化搜索dp 按对角线一条一条填数据。

2022-09-28 17:15:26 99

原创暴力递归到动态规划

精髓就是遵照题意，先写出暴力递归，然后可以发现有好多重复计算过程，浪费时间。这时候写一个dp缓存数组，将每一次暴力递归的结果存在dp里。这几种模型可以尝试动态规划。

2022-09-20 15:26:54 110

原创暴力递归1

比如111可以是aaa或者11-->k变成ka所以在递归时候要分辨去取几个数来转化，且数字不能为0或大于26。

2022-09-16 14:58:56 73

原创并查集和图

题目：每个user有三个字段 a，b，c ，若俩个user中有任意一个字段相同，他们就是统一用户解法：并查集先找一下有没有相同的发现相同立马union mapA就是a字段。

2022-09-14 15:02:37 83

原创贪心策略2

如果i能放 i+1能放那我肯定放在i+1的位置，且不用管他i+2位置能不能放，因为我i+1全包了，这时候index直接到i+3的位置。具体做法就是穷举法和那个方法的最终结果去比较，用不同的例子去比较，看答案是否一致。用小根堆先去找出哪个项目我玩得起，把玩得起的放入大根堆中，再大根堆里找，最值的项目我去玩。实在找不到的，就用对数器去验证他是正确的，常见比较器会用穷举法！就是自己分析，想几个贪心策略，找找反例去推翻他们。贪心策略：小根堆解决别问为啥用小根堆贪心策略解释你懂的。穷举法：（记得恢复环境！

2022-09-13 17:11:20 104

原创数据结构与算法

1.判断是否为完全二叉树层次遍历法：（队列）2.递归法首先三个重要辅助条件首先2.给定两个节点找他们的共同祖先思路二：递归这种递归返回的信息想要多少就多少，递归的套路就是明确返回什么以及这种结果应该怎么设置。

2022-09-08 14:58:57 107

原创 Zookeeper2

扩展性表现在框架的各种角色，zookeeper的角色主要是leader follower observer。其中读写分离严格，只有leader可以写，其他都是查询，但是follower可以进行选主投票，observer只能读1. 主要分两个场景2.选择标准：3.选主流程通常来说，只要准leader（myid和Zxid都最大）收到票，他就一定会广播自己，让所有人认可他，投票他watch监控机制就是启到监控其变化的作用设置锁要考虑以下几点......

2022-07-05 16:58:47 170

原创分布式协调服务zooKeeper/ zookeeper使用

zookeeper分布式里面的锁与redis不同，他用session来控制，session在锁在 session不在锁不在。而redis看锁过期甚至要用线程来控制上面的id都是事务id 每个连接会创建session 在那个zookeeper节点使用 creat -e /ooxx ""就会创建临时的，当这个连接挂掉后，刚才创建的也会消失掉1.新客户端创建连接时，会有一个session id。这个东西会通过leader然后传给所有节点，同时去走一个事务id。当客户端自己挂的时候，又会走一个事务删除在各

2022-07-02 09:12:15 56

空空如也

空空如也