自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 hive窗口函数与自定义函数

在Hive中提供的函数可以满足我们绝大多数数据分析场景,对于一些复杂的分析场景如果不能使用Hive自带函数来解决,也可以通过自定义函数来实现。最常用的自定义函数类型就是UDF。

2025-09-25 19:51:00 605

原创 hive SQL查询与函数

Order By:全局排序,所有数据一个顺序,性能开销最大,适用于需要全局排序的情况。Sort By:局部排序,每个reducer内排序,适用于大数据集的部分排序。Distribute By:仅分区,不排序。Cluster By:分区内排序,每个分区的数据由一个reducer排序,适用于需要数据按键分区的场景。Order By和Sort By区别在于前者保证全局有序,后者仅保证Reducer内数据有序。

2025-09-25 16:49:15 1212

原创 hive架构及搭建

Apache Hive 是基于Hadoop的数据仓库工具,它可以使用SQL来读取、写入和管理存在分布式文件系统中的海量数据。在Hive中,HQL默认转换成MapReduce程序运行到Yarn集群中,大大降低了非Java开发者数据分析的门槛,并且Hive提供命令行工具和JDBC驱动程序,方便用户连接到Hive进行数据分析操作。Hive官网地址:http://hive.apache.org。

2025-09-23 16:47:43 986 1

原创 yarn参数与队列介绍

Yarn中资源主要包含Cpu和内存,Yarn集群在节点数固定的情况下如果性能有瓶颈,可以尝试进行如下参数的调节。这些参数可以配置在$HADOOP_HOME/etc/hadoop/yarn-site.xml配置文件中。

2025-09-12 14:55:58 1401

原创 HDFS基准测试与数据治理

当搭建好HDFS集群后,我们想要了解集群的读写能力,可以通过HDFS基准测试来获取HDFS集群的读写性能。在运行基准测试之前需要将“junit-4.11.jar”放入到提交任务节点的“$HADOOP_HOME/share/hadoop/common”目录下,在执行基准测试时需要使用到该包。

2025-09-10 20:26:41 798

原创 HDFS权限介绍

HDFS是面向多用户的分布式文件系统,不同用户之间存储的文件通常需要进行权限隔离,防止被其他用户误操作。HDFS中文件权限与Linux/Unix文件系统中的权限模型是一样的,都是采用UGO模型,U表示User,G表示Group,O表示Other,每个文件的权限都基于UGO来设置。查看HDFS目录/文件权限:HDFS文件/目录权限包括可读(r),可写(w),可执行(x),三个为一组,基于UGO来设置。如:“-rw-r--r--”中第一个字符是文件类型标识符,短横线“-”表示普通文件,如果是“d”表示目录。

2025-09-09 21:42:52 1231

原创 Yarn介绍与HA搭建

Apache Hadoop Yarn(Yet Another Reasource Negotiator,另一种资源协调者)是Hadoop2.x版 本后使用的资源管理器,可以为上层应用提供统一的资源管理平台,Yarn主要由 ResourceManager、NodeManager、ApplicationMaster、Container组成。

2025-09-08 21:11:26 999

原创 HDFS架构核心

HDFS(Hadoop Distributed File System) 是 Apache Hadoop 项目的一个子项目,设计目的是用于存储海量(例如:TB和PB)文件数据,支持高吞吐读写文件并且高度容错。HDFS将多台普通廉价机器组成分布式集群形成分布式文件系统,提供统一的访问接口,用户可以像访问普通文件系统一样来使用HDFS访问文件。每个block块默认128MHDFS适合大文件写入,不适合大量小文件写入。

2025-09-05 16:54:34 1066

原创 ckman部署的clickhouse,节点迁移

在企业中可能需要,将clickhouse的某一台服务器下架,换上另一台服务器,如何实现这个操作,本篇将进行介绍;hadoop104✔(上线)

2025-08-28 15:38:22 333

原创 Ckman部署clickhouse

ckman,全称是ClickHouse Management Console, 即ClickHouse管理平台。它是由擎创科技数据库团队主导研发的一款用来管理和监控ClickHouse集群的可视化运维工具。目前该工具已在github上开源,开源地址为:github.com/housepower/ckman。

2025-08-28 11:52:08 402

原创 stargo缩扩容starrocks集群,实现节点服务器替换

在企业中可能需要,将starrocks的某一台服务器下架,换上另一台服务器,如何实现这个操作,本篇将进行介绍;

2025-08-27 19:31:38 1110

原创 stargo部署starrocks

StarGo 是用于管理多个 StarRocks 集群的命令行工具,通过 StarGo 我们可以进行多集群的部署、查看、启停、调参、升级、降级及扩缩容等操作。

2025-08-27 17:02:34 1207

原创 HDFS (3.3.6) ha原理及部署

在Hadoop2.x版本中,NameNode HA 支持2个节点,在Hadoop3.x版本中,NameNode高可用可以支持多台节点。

2025-08-22 15:54:47 1628

原创 HDFS(3.3.6)Federation联邦机制介绍和部署

在大数据时代,随着数据量的爆炸式增长,Hadoop分布式文件系统(HDFS)面临着前所未有的扩展性挑战。传统的单一NameNode架构逐渐显露出性能瓶颈,举个例子,一般1GB内存放1,000,000 block元数据。200个节点的集群中每个节点有24TB存储空间,block大小为128MB,能存储大概4千万个block(200*24*1024*1024M/128 约为4千万或更多)。

2025-08-14 19:57:07 1094

原创 HDFS(3.3.6版本)完全分布式部署

进入 $HADOOP_HOME/sbin路径下,在start-dfs.sh和stop-dfs.sh文件顶部添加操作HDFS的用户为root,防止启动错误。HDFS完全分布式集群搭建完成后,首次使用需要进行格式化,在NameNode节点(hadoop101)上执行如下命令。以root用户启动hadoop会报错误,这是hdfs出于安全问题考虑。在hadoop103上查看/data 目录。在hadoop101上查看/data目录。hadoop-3.3.6版本下载。

2025-08-12 21:34:19 1318

原创 Apache Flink介绍

Apache Flink 是一个和,用于在和数据流上进行的计算。Flink 能在所有常见集群环境中运行,并能以和进行计算。

2025-08-11 17:58:23 1094

原创 hadoop及大数据技术生态体系介绍

Hadoop是由Apache基金会所开发的分布式系统基础架构,。广义上来说,Hadoop通常是指围绕Hadoop打造的大数据生态圈Hadoop官网:hadoop.apache.org。

2025-08-01 16:28:05 1561

原创 zookeeper集群部署与选举机制

ZooKeeper 是 Apache 基金会开发的一款,专为解决分布式系统中的一致性、同步、配置管理等核心问题而设计。

2025-07-30 10:58:41 1203 2

原创 Ambari2.7.4 + HDP3.1.4离线安装

通过可以查询Ambari和HDP各个版本支持情况。

2025-07-25 11:13:33 1015 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除