"小小时代"-CSDN博客

原创 HBase

在HBase中，一条数据拥有唯一的主键，一个或多个列族(一般最多设计不会超过3)，列族必须在定义的时候声明，一个列族有任意数量的列，所以说列具有松散性，在声明时可以不定义，每一个数据可以有多个版本，当版本达到定义的版本数时(默认为1)，就会把最早的版本清理掉，一个列族的数据在物理上保存在同一个HFile/StoreFile中。在查找时通过主键找单对应的列族，再找到对应的列，最后确定具体的版本号。维护数据：当有失效的HRegion时，会将失效的HRegion分配到正常的HRegionService。

2023-12-05 20:16:27 98

原创 Hive知识

HiveHive架构执行流程 Hive的工作原理

2023-11-30 10:05:54 950 1

原创 Zookeeper

一致性（C）：数据在操作以后各节点进行同步，同步的过程中不能进行其他的操作，最终保证一致性。强一致性：进行广播时，所有的节点都广播。弱一致性：在广播时，只要广播超过一半的节点就可以。可用性（A）：对数据操作以后，在一定时间内返回结果，无论成功或失败分区容错性（P）：在分布式系统中，当有的节点宕机不可用时，仍有其他节点提供服务。以上的原则，只能保证同时两种原则在分布式系统中。

2023-11-24 22:34:21 1088 2

原创 shell

shell脚本运行

2023-11-23 10:37:23 76

原创机架节点服务器和Tomcat

先有物理服务器机器，再安装tomcat，然后在tomcat里面部署你的JavaEE JavaWeb程序，才能像QQ一样提供服务。Tomcat是Java Web才需要的，如果使用ASP.net或者PHP开发网站，不需要Tomcat。tomcat可以说成是应用服务器软件，也可以说是中间件，也可以说是Servlet容器，Web服务器。物理服务器，物理机器肯定是基础，但是就像就有了一台裸电脑，你不装操作系统，你QQ怎么运行啊。在物理服务器上安装Tomcat，物理服务器可以成为Web服务器。

2023-11-22 17:20:32 68 1

原创 spark的通用执行流程

6.资源满足后（Exector注册完毕），SparkContext解析Application代码，创建RDD,构建DAG,并提交给DAGScheduler分解成Stage(当碰到Action算子时，就会催生job,每个job中含有1个或多个Stage),然后将Stage(或者称为TaskSet)提交给TaskScheduler，TaskScheduler负责将Task分配到相应的Worker,最后提交给Executor执行（发送到Exector的线程池中）；反向注册并申请 Task。

2023-11-22 17:20:26 110 1

原创 Client和Cluster提交的区别

驱动程序直接与集群中的 Executor 通信，而不需要经过 ResourceManager。这种模式对于调试应用程序很有帮助，因为驱动程序运行在本地，可以更容易地查看日志和输出。客户端负责向 ResourceManager 请求资源，并启动应用程序的驱动程序。在 Cluster 模式下，驱动程序运行在集群上的某个节点上，而不是客户端机器上。这种模式适用于生产环境，因为驱动程序运行在集群上，减轻了客户端的负担。在 Client 模式下，驱动程序运行在提交应用程序的客户端机器上。

2023-11-10 21:57:12 351 1

原创 YARN Cluster

5.ApplicationMaster 中的 SparkContext 分配 Task 给 CoarseGrainedExecutorBackend 执行，CoarseGrainedExecutorBackend运行 Task 并向 ApplicationMaster 汇报运行的状态和进度，方便 ApplicationMaster 随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务；它将采用轮询的方式通过 RPC 协议为各个任务申请资源，并监控它们的运行状态直到运行结束；进行任务的调度，其中。

2023-11-09 19:56:52 102 1