大数据技术
文章平均质量分 67
赵渝强老师
20年以上的IT行业从业经历,清华大学计算机软件工程专业毕业,京东大学大数据学院院长,Oracle中国有限公司高级技术顾问;曾在BEA、甲骨文、摩托罗拉等世界500强公司担任高级软件架构师或咨询顾问等要职,精通大数据、数据库、中间件技术和Java技术。
展开
-
【赵渝强老师】Kafka分区的副本机制
在Kafka中每个主题可以有多个分区,每个分区又可以有多个副本。在这多个副本中,只有一个副本的角色是Leader,而其他副本的角色都是Follower。Follower副本通常不会存放在Leader副本所在的Kafka Broker上。通过这样的机制实现了高可用,当Leader副本所在的Kafka Broker宕机后,其他Follower副本所在的Kafka Broker就能够被选举成为新的Leader。从图中可以看出,每个分区的副本为3,即每个分区有三个副本。下图为展示了Kafka分区的副本机制。原创 2024-08-04 11:30:32 · 94 阅读 · 0 评论 -
【赵渝强老师】Kafka的主题与分区
在这个例子中,Topic A有3个分区。消息由生产者顺序追加到每个分区日志文件的尾部。Kafka中的分区可以分布在不同的Kafka Broker上,从而支持负载均衡和容错的功能。也就是说,Topic是一个逻辑单位,它可以横跨在多个Broker上。Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题,而消费者负责订阅主题进行消费。主题可以分为多个分区,一个分区只属于某一个主题。【赵渝强老师】Kafka的主题与分区。下图展示了主题与分区之间的关系。原创 2024-08-03 09:01:44 · 96 阅读 · 0 评论 -
【赵渝强老师】阿里云大数据生态圈体系
基于开源的大数据技术,阿里云开发了自己的大数据计算服务,即:MaxCompute大数据计算服务。MaxCompute原名为ODPS(Open Data Processing Service),它是阿里云提供的数据仓库解决方案,并提供大数据量(百TB、PB、EB)的结构化数据的存储和计算服务。由于MaxCompute适用于离线计算的批处理场景,因此阿里云进一步开发了实时计算Flink版用于支持大数据的实时处理与计算。下图展示了阿里云大数据的生态圈体系。原创 2024-08-02 10:11:18 · 893 阅读 · 0 评论 -
【赵渝强老师】Hive的体系架构
Hive支持的语言是HQL语言,即:Hive Query Language,它是SQL语言的一个子集。从另一个方面来看,可以把Hive理解为一个翻译器,默认的行为是Hive on MapReduce,也是在Hive中执行的HQL语句会被转换成一个MapReduce任务运行在Yarn之上,从而处理HDFS中的数据。由于Hive需要将数据模型的元信息保存下来,因此Hive需要一个关系型数据库的支持,官方推荐使用MySQL来存储Hive的元信息。元信息指的是:表名、列名、列的类型、分区、桶的信息等等。原创 2024-08-01 11:01:12 · 171 阅读 · 0 评论 -
【赵渝强老师】Kafka的体系架构
Kafka消息系统是一个典型的分布式系统,其组成部分包括:消息生产者(Producer)、消息消费者(Consumer)、消息服务器(Broker)以及分布式协调服务ZooKeeper。一个典型的Kafka消息系统的集群架构如下图所示。【赵渝强老师】Kafka的体系架构下表列举了Kafka中的一些术语,这些术语对于掌握Kafka的内容非常重要。原创 2024-08-01 10:07:57 · 222 阅读 · 0 评论 -
【赵渝强老师】基于Flink的流批一体架构
由于Flink集成了批计算和流计算,因此可以使用Flink构建流批一体的系统架构,主要包含数据集成的流批一体架构、数仓架构的流批一体架构和数据湖的流批一体。原创 2024-08-01 09:15:38 · 304 阅读 · 0 评论 -
【赵渝强老师】HDFS数据上传和下载的过程
元信息包含了以下的内容:数据块的个数、存储的位置,以及冗余的位置。例如:数据块1将保存到了DataNode1上,同时,对应的两份冗余存储在DataNode2和DataNode3上。例如图中的第7步所示,客户端会将数据块1上传到了DataNode1上,并通过水平复制将其复制到其他的冗余节点上,最终保证数据块冗余度的要求。在Hadoop的HDFS中客户端的操作请求,无论是上传数据或者下载数据都是由NameNode负责接收和处理。了解到了HDFS数据上传的过程,下图说明了HDFS数据下载的过程。原创 2024-08-01 08:56:08 · 202 阅读 · 0 评论 -
【赵渝强老师】部署Hadoop本地模式
因此,Hadoop本地模式只能测试MapReduce任务,并把MapReduce任务运行本地,与运行一个普通的Java程序完全一样。为了方便操作Hadoop,需要设置HADOOP_HOME的环境变量,并把bin和sbin目录加入系统的PATH路径中。(5)进入Hadoop MapReduce的Example目录,并执行WordCount程序。先执行下面的语句将Hadoop的安装介质解压的/root/training目录。(6)最后的结果将输出到/root/output/wc下,如下图所示。原创 2024-08-01 08:50:34 · 395 阅读 · 0 评论 -
【赵渝强老师】Flink生态圈组件
Flink与Spark一样也是大数据计算引擎,可以完成离线的批处理计算和流处理计算。Flink的优势在它的流处理引擎DataStream。下图展示了Flink的生态圈体系架构。【赵渝强老师】Flink生态圈组件从下往上可以将Flink的生态圈体系划分成三层,分别是:平台部署层、核心引擎层和API&Library层。下面分别进行介绍。原创 2024-07-31 19:09:33 · 158 阅读 · 0 评论 -
【赵渝强老师】Spark生态圈组件
Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分,没有数据的存储部分,因为Spark的核心就是它的执行引擎。下图展示了Spark的生态圈体系,以及访问每个模块的访问接口。【赵渝强老师】Spark生态圈。原创 2024-07-31 18:47:30 · 328 阅读 · 0 评论 -
【赵渝强老师】Hadoop生态圈组件
下图为大家展示了Hadoop生态圈体系中的主要组件以及它们彼此之间的关系。【赵渝强老师】Hadoop生态圈组件这里先简单说明每一个组件的作用功能。原创 2024-07-31 18:33:02 · 656 阅读 · 0 评论 -
【赵渝强老师】Yarn的资源调度策略
Yarn作为一个资源和任务调度的平台,在实际应用中往往不止一个应用程序运行在Yarn之上,例如:在Yarn上同时运着MapReduce任务、Spark任务和Flink任务等等。这时候Yarn就需要有一种机制进行调度去分配资源给这些应用程序。【赵渝强老师】Yarn的资源调度策略。原创 2024-07-31 17:42:20 · 275 阅读 · 0 评论 -
【赵渝强老师】基于大数据组件的平台架构
在了解了大数据各个生态圈所包含的组件及其功能特性后,就可以利用这些组件来搭建一个大数据平台从而实现数据的存储和数据的计算。下图展示了大数据平台的整体架构。【赵渝强老师】大数据平台的Lambda架构【赵渝强老师】大数据平台的Kappa架构大数据平台的总体架构可以分为五层,分别是:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。原创 2024-07-31 11:18:13 · 1287 阅读 · 0 评论