自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Kafka消息队列

简单地说,Kafka就相比是一个邮箱,生产者是发送邮件的人,消费者是接收邮件的人,Kafka就是用来存东西的,只。Topic:一类消息,消息存放的目录即主题,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。Partition:topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。多应用对消息队列中同一消息进行处理,应用间并发处理消息,相比串行处理,减少处理时间;

2023-11-23 10:56:18 72

原创 Spark任务提交有哪两种方式?优缺点是什么?

好处: 由于Driver是运行在客户端, 当执行完成后, 需要查看结果, 此时executor会将结果返回给Driver, Driver在客户端, 直接答应, 我们直接在客户端看到执行结果 (方便测试)弊端: 不方便测试, Driver运行在集群环境中,所有的内容全部都会记录到日志文件中, 无法会给提交的客户端, 所以客户端想要查看结果, 需要看日志。好处: Driver程序和executor都在同一个集群环境中, 在进行传输数据的时候, 可以更大利用内部网络带宽优势, 提升效率。

2023-11-23 09:15:40 139

原创 HDFS中大量小文件带来的问题

问题:hadoop中目录,文件和块都会以对象的形式保存在NameNode的内存中,大概每个对象会占150bytes。小文件数量多会大量占用namenode的内存;还因为占用内存过大, 导致 gc时间增加等。如果小文件无可避免, 一般就采用合并的方式解决. 可以写一个MR任务读取某个目录下的所有小文件, 并重写为一个大文件。从数据来源入手, 如每小时抽取一次改为每天抽取一次等方法来积累数据量.两个角度, 一是从根源解决小文件的产生, 二是解决不了就选择合并.

2023-11-22 09:34:49 82

原创 RDD算子

2- 动作算子都是立即执行的,一个动作算子就会产生一个Job的任务,并且会执行这个动作算子所依赖的其他所有RDD。1- 动作算子在执行后,不会返回一个RDD,要么没有返回值,要么返回的数据类型不是RDD。2- 所有的转换算子都是Lazy惰性,并不会立即执行,仅仅是在定义计算的规则。1- 所有的转换算子在执行完成后,都会返回一个新的RDD。3- 转换算子必须遇到Action动作算子才会触发执行。

2023-11-22 08:54:54 47

原创 spark

普通机制:将处理的数据先写入到内存中,当内存中的数据达到一定的阈值后,就会触发数据溢写,将数据溢写到磁盘上,在溢写的时候会对数据进行分区操作,以及排序操作,形成的文件分好区排好序的数据,溢写完成后,还会将多个溢写的数据合并为最终的大数据文件,同时这个文件数据还会携带有一个索引文件,用于后续加载读取文件中的数据。Hashshuffle:优化前:上游的RDD的每个分片都会产生和下游分区数量相等的文件的数量,每个文件对应下游的分区数据,这样导致产生大量的分区文件,对IO影响也是非常大的 最终影响效率。

2023-11-17 20:55:26 43

原创 什么是元数据管理、数据质量管理、数据治理、数据中台、数据仓库、数据湖?

数据治理:是指通过一系列的政策、流程和技术来管理和保护数据资源,以确保数据的合规性、安全性和可信度。数据治理可以帮助组织更好地管理和利用其数据资源,提高数据的价值和效益。元数据管理:元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。它包括数据的准确性、完整性、一致性、可靠性等方面的管理,以确保数据能够满足用户的需求和预期。数据中台:是一个用于集成、存储、管理和分析数据的中心化平台或架构。中的数据整合到一个可统一访问和管理的中心位置,以支持数据驱动的决策制定和业务需求。

2023-11-17 08:46:04 116

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除