自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 ZK/Flume/DataX/MaxWell/DS/JSE知识点复习

多线程是指程序中包含多个执行流,即一个程序中可以同时运行多个不同的线程来执行不同的任务。优点:可以提高cpu的利用率。多线程中,一个线程必须等待的时候,cpu可以运行其它的线程而不是等待,这样大大提高了程序的效率。线程安全是指在多线程环境下,当多个线程同时访问某个共享资源时,能够确保该资源的操作不会导致数据的不一致或损坏,并且能够正确地处理并发访问的情况。竞态条件:多个线程同时访问共享资源,导致结果的不确定性或错误的执行顺序。数据竞争:多个线程同时读写共享的可变数据,可能会导致数据的不一致性或损坏。

2024-04-19 20:00:09 631 1

原创 Spark知识点复习

​ 最后一个RDD的分区个数就是Task的个数因为Stage中的每个Task都负责处理输入RDD的一个分区,而在一个阶段中,数据已经按照前面的转换操作进行了划分,最后一个RDD的分区个数决定了最终的任务数。(5)groupBy: 将RDD中的元素按照给定的键进行分组,并返回一个元素为(键,Iterable)元组的RDD,其中每个元组表示一个键和该键对应的所有元素的迭代器。(2)Hadoop的Shuffle是必须排序的,那么不管是Map的输出,还是Reduce的输出,都是分区内有序的。

2024-04-18 17:29:03 434

原创 Hive知识点复习整理

常用UDF函数解析公共字段;用UDTF函数解析事件字段公共字段(Attributes):这些字段通常包含与实体或对象相关的静态信息或属性。例如,对于一个电子商务网站,公共字段可能包括产品的名称、价格、类别等信息。这些信息通常是固定不变的,不随着时间的推移而改变。事件字段(Events):这些字段描述了在特定时间点或时间范围内发生的动态事件或行为。例如,对于同一个电子商务网站,事件字段可能包括用户的购买行为、浏览产品的行为、加入购物车的行为等。

2024-04-17 18:55:23 616

原创 Kafka知识点复习整理

在传统的数据传输过程中,数据通常需要经过多次复制,例如从磁盘读取到内存,再从内存复制到网络缓冲区,最后从网络缓冲区复制到传输目的地的内存中。通过这些优化,Kafka 可以在消息的生产和消费过程中实现零拷贝,减少了不必要的数据复制操作,降低了系统的负载,提高了数据传输的效率和性能。批次拉取数据过少(拉取数据、处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据挤压。1)如果kafka消费能力不足,可以考虑增加topic的分区数,同时提升消费组的消费者数量,消费者数=分区数。

2024-04-16 12:28:57 273

原创 hadoop知识点整理

hadoop高频面试题整理

2024-04-15 22:26:59 1120

原创 【Basic algorithm Part I】Quick+Merge-Sort+Bisection

快排、归并、二分的模板+例题

2022-07-09 02:44:23 83 1

原创 【递归+深搜+剪枝】详解+模板(不小心秒了三道题)

最近开始恢复刷一些题,难度不是很大,今天是三道类似的题,大概就是利用递归进行深度搜索,搜索的同时带一定的回溯剪枝来缩短搜索时长。ac掉第一道后,剩下两道稍微改了改也很神奇地秒掉了,所以来记录一下,希望对大家有帮助。...

2022-06-27 21:26:46 416 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除