- 博客(19)
- 收藏
- 关注
原创 hive窗口函数与自定义函数
在Hive中提供的函数可以满足我们绝大多数数据分析场景,对于一些复杂的分析场景如果不能使用Hive自带函数来解决,也可以通过自定义函数来实现。最常用的自定义函数类型就是UDF。
2025-09-25 19:51:00
605
原创 hive SQL查询与函数
Order By:全局排序,所有数据一个顺序,性能开销最大,适用于需要全局排序的情况。Sort By:局部排序,每个reducer内排序,适用于大数据集的部分排序。Distribute By:仅分区,不排序。Cluster By:分区内排序,每个分区的数据由一个reducer排序,适用于需要数据按键分区的场景。Order By和Sort By区别在于前者保证全局有序,后者仅保证Reducer内数据有序。
2025-09-25 16:49:15
1212
原创 hive架构及搭建
Apache Hive 是基于Hadoop的数据仓库工具,它可以使用SQL来读取、写入和管理存在分布式文件系统中的海量数据。在Hive中,HQL默认转换成MapReduce程序运行到Yarn集群中,大大降低了非Java开发者数据分析的门槛,并且Hive提供命令行工具和JDBC驱动程序,方便用户连接到Hive进行数据分析操作。Hive官网地址:http://hive.apache.org。
2025-09-23 16:47:43
986
1
原创 yarn参数与队列介绍
Yarn中资源主要包含Cpu和内存,Yarn集群在节点数固定的情况下如果性能有瓶颈,可以尝试进行如下参数的调节。这些参数可以配置在$HADOOP_HOME/etc/hadoop/yarn-site.xml配置文件中。
2025-09-12 14:55:58
1401
原创 HDFS基准测试与数据治理
当搭建好HDFS集群后,我们想要了解集群的读写能力,可以通过HDFS基准测试来获取HDFS集群的读写性能。在运行基准测试之前需要将“junit-4.11.jar”放入到提交任务节点的“$HADOOP_HOME/share/hadoop/common”目录下,在执行基准测试时需要使用到该包。
2025-09-10 20:26:41
798
原创 HDFS权限介绍
HDFS是面向多用户的分布式文件系统,不同用户之间存储的文件通常需要进行权限隔离,防止被其他用户误操作。HDFS中文件权限与Linux/Unix文件系统中的权限模型是一样的,都是采用UGO模型,U表示User,G表示Group,O表示Other,每个文件的权限都基于UGO来设置。查看HDFS目录/文件权限:HDFS文件/目录权限包括可读(r),可写(w),可执行(x),三个为一组,基于UGO来设置。如:“-rw-r--r--”中第一个字符是文件类型标识符,短横线“-”表示普通文件,如果是“d”表示目录。
2025-09-09 21:42:52
1231
原创 Yarn介绍与HA搭建
Apache Hadoop Yarn(Yet Another Reasource Negotiator,另一种资源协调者)是Hadoop2.x版 本后使用的资源管理器,可以为上层应用提供统一的资源管理平台,Yarn主要由 ResourceManager、NodeManager、ApplicationMaster、Container组成。
2025-09-08 21:11:26
999
原创 HDFS架构核心
HDFS(Hadoop Distributed File System) 是 Apache Hadoop 项目的一个子项目,设计目的是用于存储海量(例如:TB和PB)文件数据,支持高吞吐读写文件并且高度容错。HDFS将多台普通廉价机器组成分布式集群形成分布式文件系统,提供统一的访问接口,用户可以像访问普通文件系统一样来使用HDFS访问文件。每个block块默认128MHDFS适合大文件写入,不适合大量小文件写入。
2025-09-05 16:54:34
1066
原创 ckman部署的clickhouse,节点迁移
在企业中可能需要,将clickhouse的某一台服务器下架,换上另一台服务器,如何实现这个操作,本篇将进行介绍;hadoop104✔(上线)
2025-08-28 15:38:22
333
原创 Ckman部署clickhouse
ckman,全称是ClickHouse Management Console, 即ClickHouse管理平台。它是由擎创科技数据库团队主导研发的一款用来管理和监控ClickHouse集群的可视化运维工具。目前该工具已在github上开源,开源地址为:github.com/housepower/ckman。
2025-08-28 11:52:08
402
原创 stargo缩扩容starrocks集群,实现节点服务器替换
在企业中可能需要,将starrocks的某一台服务器下架,换上另一台服务器,如何实现这个操作,本篇将进行介绍;
2025-08-27 19:31:38
1110
原创 stargo部署starrocks
StarGo 是用于管理多个 StarRocks 集群的命令行工具,通过 StarGo 我们可以进行多集群的部署、查看、启停、调参、升级、降级及扩缩容等操作。
2025-08-27 17:02:34
1207
原创 HDFS (3.3.6) ha原理及部署
在Hadoop2.x版本中,NameNode HA 支持2个节点,在Hadoop3.x版本中,NameNode高可用可以支持多台节点。
2025-08-22 15:54:47
1628
原创 HDFS(3.3.6)Federation联邦机制介绍和部署
在大数据时代,随着数据量的爆炸式增长,Hadoop分布式文件系统(HDFS)面临着前所未有的扩展性挑战。传统的单一NameNode架构逐渐显露出性能瓶颈,举个例子,一般1GB内存放1,000,000 block元数据。200个节点的集群中每个节点有24TB存储空间,block大小为128MB,能存储大概4千万个block(200*24*1024*1024M/128 约为4千万或更多)。
2025-08-14 19:57:07
1094
原创 HDFS(3.3.6版本)完全分布式部署
进入 $HADOOP_HOME/sbin路径下,在start-dfs.sh和stop-dfs.sh文件顶部添加操作HDFS的用户为root,防止启动错误。HDFS完全分布式集群搭建完成后,首次使用需要进行格式化,在NameNode节点(hadoop101)上执行如下命令。以root用户启动hadoop会报错误,这是hdfs出于安全问题考虑。在hadoop103上查看/data 目录。在hadoop101上查看/data目录。hadoop-3.3.6版本下载。
2025-08-12 21:34:19
1318
原创 Apache Flink介绍
Apache Flink 是一个和,用于在和数据流上进行的计算。Flink 能在所有常见集群环境中运行,并能以和进行计算。
2025-08-11 17:58:23
1094
原创 hadoop及大数据技术生态体系介绍
Hadoop是由Apache基金会所开发的分布式系统基础架构,。广义上来说,Hadoop通常是指围绕Hadoop打造的大数据生态圈Hadoop官网:hadoop.apache.org。
2025-08-01 16:28:05
1561
原创 zookeeper集群部署与选举机制
ZooKeeper 是 Apache 基金会开发的一款,专为解决分布式系统中的一致性、同步、配置管理等核心问题而设计。
2025-07-30 10:58:41
1203
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人