大数据
文章平均质量分 54
XueminXu
这个作者很懒,什么都没留下…
展开
-
Flink任务提交流程和运行模式
Flink的任务提交流程过程说明,Flink集群的运行模式及其下的任务部署模式原创 2024-08-08 13:30:27 · 1373 阅读 · 0 评论 -
Hive数据仓库行转列
Hive、SparkSQL、Presto、MaxCompute平台数据仓库中行转列的使用案例介绍原创 2024-02-20 15:39:03 · 687 阅读 · 0 评论 -
数据预处理方法
数据预处理的介绍,数据标准化的具体方法阐述原创 2023-11-21 11:02:56 · 279 阅读 · 0 评论 -
泊松分布与伽马分布
介绍泊松分布和伽马分布,及其两者的关系原创 2023-08-04 18:05:55 · 1110 阅读 · 0 评论 -
Flink SQL使用MySQL数据源的启动模式
介绍MySQL CDC源表的几种接入方式原创 2023-07-17 20:05:47 · 740 阅读 · 0 评论 -
Flink SQL中窗口和水印触发机制
Flink SQL的窗口函数介绍和使用。水印无法触发的解决办法原创 2023-06-30 17:58:49 · 849 阅读 · 0 评论 -
Flink的时间语义和状态管理
Flink的时间语义介绍,状态介绍,包括状态的分类等原创 2023-05-11 16:26:11 · 169 阅读 · 0 评论 -
向量的距离及其计算
距离的分类和计算原创 2023-04-23 10:38:26 · 1232 阅读 · 0 评论 -
Flink中的时间与窗口
Flink的时间语义介绍,窗口及窗口函数的介绍原创 2023-03-06 11:03:56 · 496 阅读 · 0 评论 -
Flink运行组件及原理
Flink组件介绍,包括JobManager,TaskManager等。Flink的任务运行的步骤和原理。原创 2023-02-08 19:57:44 · 337 阅读 · 0 评论 -
Hive和Spark-SQL的演变
Hive到Spark-SQL的演变过程原创 2023-02-01 21:08:41 · 332 阅读 · 0 评论 -
Spark数据倾斜及解决方法
Spark算子使用过程中遇到的数据倾斜问题及其解决方法,该数据倾斜也适用于其他计算引擎中原创 2022-12-05 21:35:55 · 1776 阅读 · 0 评论 -
Spark Streaming介绍
Spark Streaming的介绍,包括原理,数据来源和数据处理机制原创 2022-11-30 11:31:06 · 341 阅读 · 0 评论 -
Spark的内存管理
Spark的运行服务相关的内存介绍原创 2022-11-22 12:45:14 · 1072 阅读 · 0 评论 -
Spark的Shuffle过程解释
Spark的Shuffle过程的个人理解,包括分区,Map和Reduce的写入读取和分解等。原创 2022-11-07 11:01:26 · 695 阅读 · 0 评论 -
Hive配置参数解释
Hive配置参数的介绍和解释,包括对应MapReduce引擎和对应Tez引擎的,同时也记录了在使用Tez引擎过程中的报错解决办法。原创 2022-10-31 10:55:35 · 2638 阅读 · 0 评论 -
Spark任务提交后的处理流程
Spark任务提交后的处理流程,主要是指Spark对计算任务的预处理、环境资源、分区及stage划分的处理原创 2022-10-17 14:44:21 · 1228 阅读 · 0 评论 -
Spark的介绍和安装配置
介绍Spark的原理和核心组件,RDD算子的介绍,安装和配置说明原创 2022-10-12 10:27:09 · 973 阅读 · 0 评论 -
Hive引擎
Hive引擎介绍及Tez引擎的使用配置原创 2022-08-29 10:50:33 · 1697 阅读 · 0 评论 -
Hive运行机制与原理
Hive的运行原理,包括服务组件介绍,存储格式、压缩格式等的实践总结原创 2022-08-15 10:47:26 · 846 阅读 · 0 评论 -
Hive简介及安装配置
Hive的介绍及其安装和配置原创 2022-06-23 19:33:04 · 587 阅读 · 0 评论 -
HBase安装配置过程和说明
HBase安装和配置说明原创 2022-06-01 17:15:48 · 450 阅读 · 0 评论 -
HBase数据模型与原理
HBase(Hadoop Database)数据可以放在单主机上,非HDFS上,但不是分布式的。一般都是放在HDFS上。HBase需要Zookeeper。结构体系Master:为RegionServer分配Region;负责RegionServer的负载均衡;发现失效的RegionServer便重新分配其上的Region;管理用户对table的增删改操作。看着作用不是很大,只要活着即可。RegionServer:维护Region,处理对这些Region的IO请求;负责切分在运行过程中变得过大的Reg原创 2022-04-27 17:38:29 · 1308 阅读 · 0 评论 -
Zookeeper原理及算法模型
概述Zookeeper(下简称zk)的基本数据模型为一个树形结构(类似文件系统结构)。zk的节点(znode)分为临时节点和永久节点。临时节点对当前session有效,永久节点永久有效。(同HIVE UDF)。永久节点下面可以挂子节点,临时节点下面不能再挂任何节点。znode特点:znode:每一个节点都有一个id,id不会重复;每一个id都有一个父id(pid)。每一个节点上的数据发生了变化,这时候会引发数据版本号cversion变化(版本号+1)znode上面不要存放太大的数据(几个kb),原创 2021-08-26 16:34:35 · 557 阅读 · 0 评论 -
YARN的配置项
这里以Hadoop 2.7为例,如果新版有变更以新版为主。ResourceManager相关配置参数:yarn.resourcemanager.address:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yarn.resourcemanager.hostname}:8032yarn.resourcemanager.scheduler.address:ResourceManager 对ApplicationMaster暴露的访问地原创 2021-08-04 09:44:19 · 3425 阅读 · 0 评论 -
Hadoop资源调度框架Yarn介绍
Yarn(yet another resource negotiator)是分布式调度引擎,Hadoop2加进来的,算是抽象出来的。主要是监管节点上使用多少内存和CPU,然后把任务分配到空闲的节点,Yarn只做调度,不做计算。不光MapReduce可以使用Yarn,例如Spark,Storm,Tez,Mpi等很多也可以用于Yarn上。组件ResourceManager:资源管理者,一般和Nam...原创 2020-04-28 20:06:37 · 312 阅读 · 0 评论 -
Hadoop分布式文件系统HDFS介绍
HDFS全称是Hadoop Distributed File System。hdfs中的block的大小默认128MB(hadoop2.x,1.x是64MB),文件占用的大小不到128也占用128M。默认每个block有3个备份(dfs.replication可设),备份在一个rack(机架)上的不同节点,备份和原文件一般不在一个机架。如果一个节点宕掉,其中的block会生成新的到其他节点(宕机的...原创 2020-04-25 22:15:15 · 397 阅读 · 0 评论 -
Zookeeper运行过程与机制剖析
是一个分布式协调服务的开源框架。Zookeeper的层次关系叫Znode,Zookeeper可用来监测Hadoop集群中每个节点的配置文件和状态的变化,Zookeeper可将配置同步到各个节点。Zookeeper可用来做HA。服务状态Follower的运行状态包括:LOOKING(当前节点不知道Leader是谁,在搜寻);LEADING(当前节点成为了Leader);FOLLOWING(Lea...原创 2020-04-24 11:15:53 · 396 阅读 · 0 评论 -
MapReduce的Shuffle过程详细理解
Map端Map执行完,开始输出,也就是写入到环形内存缓冲区,输出时按照输出的key进行分区(Partition,分区方式默认按照key的hash值对reducer个数取模)。数据在环形内存缓冲区,超过阈值(默认100MB,可mapreduce.task.io.sort.mb来设定,是指一个task的,整个工作叫job,单独的map和reduce叫task,超过阈值表示超过80%,可mapredu...原创 2020-04-20 22:56:41 · 563 阅读 · 0 评论 -
分布式计算系统中的CAP定理
CAP内容解释一致性(Consistency),即更新操作成功并返回客户端完成后,所有节点在同一时间的数据完全一致,也就是数据一致性。从客户端来看,一致性主要指的是多并发访问时更新过的数据如何获取的问题。从服务端来看,则是更新如何复制分布到整个系统,以保证数据最终一致。包括:强一致性,要求更新过的数据能被后续的访问都能看到;弱一致性,能容忍后续的部分或者全部访问不到;最终一致性,经过一段时间后...原创 2020-04-18 16:06:04 · 302 阅读 · 0 评论