嘉禾望岗503-CSDN博客

原创 hive窗口函数与自定义函数

在Hive中提供的函数可以满足我们绝大多数数据分析场景，对于一些复杂的分析场景如果不能使用Hive自带函数来解决，也可以通过自定义函数来实现。最常用的自定义函数类型就是UDF。

2025-09-25 19:51:00 605

Order By：全局排序，所有数据一个顺序，性能开销最大，适用于需要全局排序的情况。Sort By：局部排序，每个reducer内排序，适用于大数据集的部分排序。Distribute By：仅分区，不排序。Cluster By：分区内排序，每个分区的数据由一个reducer排序，适用于需要数据按键分区的场景。Order By和Sort By区别在于前者保证全局有序，后者仅保证Reducer内数据有序。

2025-09-25 16:49:15 1212

原创 hive架构及搭建

Apache Hive 是基于Hadoop的数据仓库工具，它可以使用SQL来读取、写入和管理存在分布式文件系统中的海量数据。在Hive中，HQL默认转换成MapReduce程序运行到Yarn集群中，大大降低了非Java开发者数据分析的门槛，并且Hive提供命令行工具和JDBC驱动程序，方便用户连接到Hive进行数据分析操作。Hive官网地址：http://hive.apache.org。

2025-09-23 16:47:43 986 1

原创 yarn参数与队列介绍

Yarn中资源主要包含Cpu和内存，Yarn集群在节点数固定的情况下如果性能有瓶颈，可以尝试进行如下参数的调节。这些参数可以配置在$HADOOP_HOME/etc/hadoop/yarn-site.xml配置文件中。

2025-09-12 14:55:58 1401

原创 HDFS基准测试与数据治理

当搭建好HDFS集群后，我们想要了解集群的读写能力，可以通过HDFS基准测试来获取HDFS集群的读写性能。在运行基准测试之前需要将“junit-4.11.jar”放入到提交任务节点的“$HADOOP_HOME/share/hadoop/common”目录下，在执行基准测试时需要使用到该包。

2025-09-10 20:26:41 798

原创 HDFS权限介绍

HDFS是面向多用户的分布式文件系统，不同用户之间存储的文件通常需要进行权限隔离，防止被其他用户误操作。HDFS中文件权限与Linux/Unix文件系统中的权限模型是一样的，都是采用UGO模型，U表示User，G表示Group，O表示Other，每个文件的权限都基于UGO来设置。查看HDFS目录/文件权限：HDFS文件/目录权限包括可读（r）,可写（w），可执行（x）,三个为一组，基于UGO来设置。如：“-rw-r--r--”中第一个字符是文件类型标识符，短横线“-”表示普通文件，如果是“d”表示目录。

2025-09-09 21:42:52 1231

原创 Yarn介绍与HA搭建

Apache Hadoop Yarn(Yet Another Reasource Negotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台,Yarn主要由 ResourceManager、NodeManager、ApplicationMaster、Container组成。

2025-09-08 21:11:26 999

原创 HDFS架构核心

HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目，设计目的是用于存储海量（例如：TB和PB）文件数据，支持高吞吐读写文件并且高度容错。HDFS将多台普通廉价机器组成分布式集群形成分布式文件系统，提供统一的访问接口，用户可以像访问普通文件系统一样来使用HDFS访问文件。每个block块默认128MHDFS适合大文件写入，不适合大量小文件写入。

2025-09-05 16:54:34 1066

原创 ckman部署的clickhouse，节点迁移

在企业中可能需要，将clickhouse的某一台服务器下架，换上另一台服务器，如何实现这个操作，本篇将进行介绍；hadoop104✔（上线）

2025-08-28 15:38:22 333

原创 Ckman部署clickhouse

ckman，全称是ClickHouse Management Console，即ClickHouse管理平台。它是由擎创科技数据库团队主导研发的一款用来管理和监控ClickHouse集群的可视化运维工具。目前该工具已在github上开源，开源地址为：github.com/housepower/ckman。

2025-08-28 11:52:08 402

原创 stargo缩扩容starrocks集群，实现节点服务器替换

在企业中可能需要，将starrocks的某一台服务器下架，换上另一台服务器，如何实现这个操作，本篇将进行介绍；

2025-08-27 19:31:38 1110

原创 stargo部署starrocks

StarGo 是用于管理多个 StarRocks 集群的命令行工具，通过 StarGo 我们可以进行多集群的部署、查看、启停、调参、升级、降级及扩缩容等操作。

2025-08-27 17:02:34 1207

原创 HDFS (3.3.6) ha原理及部署

在Hadoop2.x版本中，NameNode HA 支持2个节点，在Hadoop3.x版本中，NameNode高可用可以支持多台节点。

2025-08-22 15:54:47 1628

原创 HDFS（3.3.6）Federation联邦机制介绍和部署

在大数据时代，随着数据量的爆炸式增长，Hadoop分布式文件系统（HDFS）面临着前所未有的扩展性挑战。传统的单一NameNode架构逐渐显露出性能瓶颈，举个例子，一般1GB内存放1，000，000 block元数据。200个节点的集群中每个节点有24TB存储空间，block大小为128MB，能存储大概4千万个block（200*24*1024*1024M/128 约为4千万或更多）。

2025-08-14 19:57:07 1094

原创 HDFS(3.3.6版本)完全分布式部署

进入 $HADOOP_HOME/sbin路径下，在start-dfs.sh和stop-dfs.sh文件顶部添加操作HDFS的用户为root，防止启动错误。HDFS完全分布式集群搭建完成后，首次使用需要进行格式化，在NameNode节点（hadoop101）上执行如下命令。以root用户启动hadoop会报错误，这是hdfs出于安全问题考虑。在hadoop103上查看/data 目录。在hadoop101上查看/data目录。hadoop-3.3.6版本下载。

2025-08-12 21:34:19 1318

原创 Apache Flink介绍

Apache Flink 是一个和，用于在和数据流上进行的计算。Flink 能在所有常见集群环境中运行，并能以和进行计算。

2025-08-11 17:58:23 1094

原创 hadoop及大数据技术生态体系介绍

Hadoop是由Apache基金会所开发的分布式系统基础架构，。广义上来说，Hadoop通常是指围绕Hadoop打造的大数据生态圈Hadoop官网：hadoop.apache.org。

2025-08-01 16:28:05 1561

原创 zookeeper集群部署与选举机制

ZooKeeper 是 Apache 基金会开发的一款，专为解决分布式系统中的一致性、同步、配置管理等核心问题而设计。

2025-07-30 10:58:41 1203 2

原创 Ambari2.7.4 + HDP3.1.4离线安装

通过可以查询Ambari和HDP各个版本支持情况。

2025-07-25 11:13:33 1015 1

weixin_62206215的博客