自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 HBase

在HBase中,一条数据拥有唯一的主键,一个或多个列族(一般最多设计不会超过3),列族必须在定义的时候声明,一个列族有任意数量的列,所以说列具有松散性,在声明时可以不定义,每一个数据可以有多个版本,当版本达到定义的版本数时(默认为1),就会把最早的版本清理掉,一个列族的数据在物理上保存在同一个HFile/StoreFile中。在查找时通过主键找单对应的列族,再找到对应的列,最后确定具体的版本号。维护数据:当有失效的HRegion时,会将失效的HRegion分配到正常的HRegionService。

2023-12-05 20:16:27 46

原创 Hive知识

HiveHive架构执行流程 Hive的工作原理

2023-11-30 10:05:54 53 1

原创 Zookeeper

一致性(C):数据在操作以后各节点进行同步,同步的过程中不能进行其他的操作,最终保证一致性。强一致性:进行广播时,所有的节点都广播。弱一致性:在广播时,只要广播超过一半的节点就可以。可用性(A):对数据操作以后,在一定时间内返回结果,无论成功或失败分区容错性(P):在分布式系统中,当有的节点宕机不可用时,仍有其他节点提供服务。以上的原则,只能保证同时两种原则在分布式系统中。

2023-11-24 22:34:21 1025 2

原创 shell

shell脚本运行

2023-11-23 10:37:23 29

原创 机架节点服务器和Tomcat

先有物理服务器机器,再安装tomcat,然后在tomcat里面部署你的JavaEE JavaWeb程序,才能像QQ一样提供服务。Tomcat是Java Web才需要的,如果使用ASP.net或者PHP开发网站,不需要Tomcat。tomcat可以说成是应用服务器软件,也可以说是中间件,也可以说是Servlet容器,Web服务器。物理服务器,物理机器肯定是基础,但是就像就有了一台裸电脑,你不装操作系统,你QQ怎么运行啊。在物理服务器上安装Tomcat,物理服务器可以成为Web服务器。

2023-11-22 17:20:32 25 1

原创 spark的通用执行流程

​ 6.资源满足后(Exector注册完毕),SparkContext解析Application代码,创建RDD,构建DAG,并提交给DAGScheduler分解成Stage(当碰到Action算子时,就会催生job,每个job中含有1个或多个Stage),然后将Stage(或者称为TaskSet)提交给TaskScheduler,TaskScheduler负责将Task分配到相应的Worker,最后提交给Executor执行(发送到Exector的线程池中);反向注册并申请 Task。

2023-11-22 17:20:26 42 1

原创 Client和Cluster提交的区别

驱动程序直接与集群中的 Executor 通信,而不需要经过 ResourceManager。这种模式对于调试应用程序很有帮助,因为驱动程序运行在本地,可以更容易地查看日志和输出。客户端负责向 ResourceManager 请求资源,并启动应用程序的驱动程序。在 Cluster 模式下,驱动程序运行在集群上的某个节点上,而不是客户端机器上。这种模式适用于生产环境,因为驱动程序运行在集群上,减轻了客户端的负担。在 Client 模式下,驱动程序运行在提交应用程序的客户端机器上。

2023-11-10 21:57:12 155 1

原创 YARN Cluster

5.ApplicationMaster 中的 SparkContext 分配 Task 给 CoarseGrainedExecutorBackend 执行,CoarseGrainedExecutorBackend运行 Task 并向 ApplicationMaster 汇报运行的状态和进度,方便 ApplicationMaster 随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务;它将采用轮询的方式通过 RPC 协议为各个任务申请资源,并监控它们的运行状态直到运行结束;进行任务的调度,其中。

2023-11-09 19:56:52 45 1

原创 Spark的通用执行流程

1.集群启动后,Worker向Master节点心跳汇报资源(CUP Core 和Memory)情况;2.Client提交Application,根据不同的运行模式在不同的位置创建Driver进程;3.SparkContext连接到Master,向Master注册应用并申请资源(Executor 的CPU Core和Memory);4.Master根据SparkContext的资源申请并根据Worker心跳周期报告的信息决定在哪个Worker上资源分配,也就是Executor;

2023-11-09 17:13:23 39 1

原创 Hdfs分布式文件存储系统

3.Standby NameNode的磁盘元数据和Active NameNode的磁盘元数据是不一样的,因为谁是Active谁才会在磁盘中写入元数据,并实时写入QJM。2.Standby NameNode 的内存元数据和Active NameNode的内存元数据一模一样,当Active宕机时可以随时顶替成为新的Active.3.将文件与块的映射关系存入内存与磁盘,但是块与DataNode的映射关系只存入内存,因为DataNode可能会宕机,这层关系持久化无意义。

2023-10-27 17:55:22 145 1

原创 MapReduce知识

环形数据缓冲区默认设置大小是100M,在其中写入切片数据和对应的元数据,当数据写入达到80%时开始溢写,并在剩余20%的中间位置设置新的赤道。溢写的时候可以使用Combiner组合器进行预聚合,每次溢写生成一个spilln.out和一个spilln.out.index文件,.index文件中记录.out文件 的分区信息和数据长度。一个切片会生成多个.index和.out文件,最后都会对他们进行合并,并生成 file.out和file.out.index文件,合并时,一次最多同时合并十个文件。

2023-10-26 21:20:13 78

原创 Linux的基本操作

rsync和scp在文件夹均不存在时,执行时间相差不大,但是文件夹存在的情况下差异很大。原因是scp是复制:若目的地文件不存在则新建,若存在则覆盖。而rsync是同步,比较两边文件是否相同,相同的话,就什么都不做,若存在差异就直接更新。起到同步的作用时用rsync会快一些,起到复制作用时两者均可(目的地无文件)。视情况来选择rsync或scp,如果小文件非常多(过万),且只改动了一两个,使用rsync就不见得比scp快,因为scp无脑全部覆盖,rsync。

2023-10-17 23:14:15 29

原创 Linux基本操作

6.快照、克隆、移除、打开功能的实现。4.关闭防火墙和SElinux。3.虚拟机的网络配置。

2023-10-16 21:07:34 24

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除