十八闲客的博客,专注于大数据运维

专注于大数据运维领域,资深大数据运维，Apache dolphinscheduler committer, Apache Bigtop Manager Contributor

●一些短期运行的作业的生命周期过短，难以有效地将必要的指标数据供给到 Server 端，它们一般会采用推送（Push）方式输出指标数据， Prometheus 借助于 Pushgateway 接收这些推送的数据，进而由 Server 端进行抓取。随着公司业务的不断发展，业务种类的增加、服务器数量的增长和网络环境的复杂以及版本发布频繁，从而不可避免带来了线上事故的增多，因此需要对服务器进行全方位的监控，提前预警，急需一个工具来实现解决这个问题，而Grafana的出现完美解决了这个问题。

2024-08-29 17:07:22 125508

转载使用kubeadm搭建高可用的K8s集群

kubeadm是官方社区推出的一个用于快速部署kubernetes集群的工具。

2024-08-12 11:45:50 428

原创 HDFS的NameNode堆内存估算

在HDFS中，数据和元数据是分开存储的，数据文件被分割成若干个数据块，每一个数据块默认备份3份，然后分布式的存储在所有的DataNode上，元数据会常驻在NameNode的内存中，而且随着数据量的增加，在NameNode中内存的元数据的大小也会随着增加，那么这个时候对NameNode的内存的估算就变的非常的重要了。假设现在有一个192MB的文件，数据块的大小是默认的128M，那么这个192MB的文件会被切分成两个数据块，一个数据块的大小是128MB，另一个数据块的大小是64MB。

2024-08-12 11:03:28 538

原创 CDH 集群使用 JindoFS SDK 访问 OSS

CDH（Cloudera's Distribution, including Apache Hadoop）是众多Hadoop发行版本中的一种，本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。通过集群管理工具Cloudera Manager增加OSS的Access Key、Access Key Secret、Endpoint等配置，并根据Cloudera Manager提示重启集群和部署客户端配置。)，将sdk包安装到hadoop的classpath下。

2024-08-12 09:04:51 1018

原创 CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj_os/tp_device/* oss://dbbigdatapro/group/user/tools/meta/hive-temp-table/kstj_os/tp_device。各个节点上传jindofs-sdk.jar到/root/目录下。在yarn的界面操作以下。

2024-08-10 08:59:08 159

原创 hue无法执行批处理作业解决方案

提示hdfs的/user/oozie/share/lib目录不存在，原因是因为没有安装oozie的共享库。点击oozie角色，操作中点击安装oozie共享库。在执行批处理作业的时候，报作业为FAILED状态。查看执行的过程中发现：oozie的问题。脚本中没有报错，问题得到解决。

2024-08-10 05:43:17 123

原创 Apache Dolphinscheduler版本差异的配置造成的故障处理

dolphinscheduler1.3.4的common.properties的配置。dolphinscheduler1.3.8的common.properties的配置。下面的这个配置成%s,因为代码中隐藏了，不然无法获取到yarn的任务状态信息。下面的这个配置中8088直接在配置成端口即可。1.3.8改了配置之后任务正常，如下。

2024-08-10 05:39:24 216

原创 Doris 数仓使用规范（经验版）

对于历史数据，如果数据量比较小我们可以创建历史分区（比如年分区，月分区），将所有历史数据放到对应分区里。类似这样通过Hint方式去设置Session 会话变量，不要设置全局的系统变量。【强制】数据库字符集指定utf-8，并且只支持utf-8。4. 使用PrepareStatement模板。

2024-08-10 05:34:40 228

原创 Kudu_tool备份还原使用文档

Kudu表数据和hive表数据进行从阿里云迁移到私有云，数据300G需要进行迁移，固编写了此工具方便运维使用进行迁移Kudu表数据和hive表数据。

2024-08-10 05:30:04 750

原创 xCat部署及分发操作系统

一、环境准备此次安装部署均在VMware虚拟机上运行。系统采用通用稳定的centos7系统，移植到其他(linux)系统应该问题不大。软件服务器的VMware虚拟机的创建部分就跳过了.注意事项：1.虚拟机的网络采用NAT模式2.虚拟的DHCP关闭，否则和xcat的DHCP冲突2.2系统内核优化，使用脚本优化(管理节点操作)2.3配置主机名（管理节点操作）2.4禁用防火墙三、部署NTP时间服务器1.NTP服务端+客户端crontab定时器定时执行ntpdate同步时间2.NTP服务端

2024-08-09 14:42:39 476

原创 CDH集成Paimon+flink+hive的测试联调

Apache Paimon是一种湖格式，可以通过Flink和Spark构建实时Lakehouse架构，用于流式和批处理操作。Paimon创新地结合了湖格式和LSM（日志结构合并树）结构，将实时流式更新引入湖架构。

2024-08-08 19:58:24 2622 2

原创高性能计算收藏

- Slurm资源管理与作业调度系统HA高可用配置。-- Slurm资源管理与作业调度系统安装配置。-- Linux高性能计算集群配置。-- Slurm作业管理系统使用。-- slurm文档集。

2024-08-08 10:47:36 305

原创使用python监控HDFS文件的增量【优化中】

3.2删除文件记录 hdfs_delete_file_record.py。3.4文件路径的天监控 hdfs_path_Monitor_day.py。3.3文件路径的小时监控 hdfs_path_Monitor.py。3、每天计算文件大小，参考：hdfs_path_Monitor_day.py。3.2删除文件记录 hdfs_delete_file_record.py。3.4文件路径的天监控 hdfs_path_Monitor_day.py。3.3文件路径的小时监控 hdfs_path_Monitor.py。

2024-08-04 12:47:31 322

原创 CDH的CM金丝雀Canary报错

Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录。Hive Metastore canary 创建 hue hdfs 主目录失败。2）hdfs datanode是否健康，磁盘空间是否空闲，可自行上传文件测试。如果都确认过还报错，请重启cloudera-scm-server。3）根据错误提示查看目录权限，如果有问题，改为777。1）hdfs是否处于safemode，正常是off。CM金丝雀Canary报错。1 HDFS 金丝雀。

2024-08-04 12:44:53 651

原创 hive 查看表权限命令行 hive 查询表权限

4、查看当前具有的角色。7、查看某用户的所有角色。2、删除用户acl权限。3、删除所有acl权限。5、查看所有存在的角色。

2024-08-04 12:42:23 623

原创统计HDFS中文件数量、大小、以及在某范围大小的文件数量

使用：hdfs dfs -ls -R / |grep ^-数据保存在 data.txt 文件中；

2024-08-04 12:40:36 868

原创 Slurm集群部署

同时，MUNGE的高效性保证了认证过程不会成为系统性能的瓶颈，使得SLURM能够在大规模集群中高效运行。通过NIS，系统管理员可以在一个中心位置管理用户账户和配置文件，简化了跨多个系统的用户管理工作，提高了网络的可维护性和安全性。MUNGE（MUNGE Uid ‘N’ Gid Emporium）是一种用于认证的工具，特别设计用于在分布式系统中验证用户的身份。在SLURM环境中，NIS通过集中管理用户账户和权限，确保在整个计算集群中用户身份的一致性，简化了用户管理，减少了维护成本。

2024-07-31 14:35:28 2563 2

原创 Kudu_tool备份还原使用文档

Kudu表数据和hive表数据进行从阿里云迁移到私有云，数据300G需要进行迁移，固编写了此工具方便运维使用进行迁移Kudu表数据和hive表数据。

2024-07-28 20:06:02 227

原创 Clickhouse服务器CPU 99.99%的处理过程

查看报错日志，查询的数据大于max blokc的原因导到的，主要是因查询进入了死循环的状态了。进入服务器，查询正在执行任务的语句。

2024-07-28 09:27:05 887

原创生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程

1.要多看报错的内容,根据报错的内容一步步的修复2.保证有一台namenode是可用的3.保证各个组件的元数据库是正常使用的.4.修复的时候要胆大心细,操作之前要写好操作方案去实施,不然思路上不清晰,修复起来会出现各种问题5.修复之前要针对元数据库和组件分布到各个主机上要做好备份。

2024-07-28 09:23:04 589

原创 HDFS清理Tarsh的脚本

【代码】HDFS清理Tarsh的脚本。

2024-07-25 09:27:37 197

原创 Hadoop健康检查脚本

【代码】Hadoop健康检查脚本。

2024-07-25 09:25:45 242

原创 Centos7禁用THP（Transparent HugePages）(大数据要关闭此项)

开启THP精髓是提高内存分配效率，减少CPU SYS开销。如果输出结果为[always]表示透明大页启用了。[never]表示透明大页禁用、[madvise]表示（只在MADV_HUGEPAGE标志的VMA中使用THP这个状态就说明都是启用的。3、永久禁用THP(Transparent HugePages )编辑rc.local文件：4、保存退出，然后赋予rc.local文件执行权限：5、最后重启系统，以后再检查THP应该就是被禁用了6、另一

2024-07-24 00:03:26 848

原创整合Apache Hudi+Mysql+FlinkCDC2.1+CDH6.3.0

flink 1.13.1+hudi0.10+hive2.1.1+cdh6.3.0+mysql5.7+flinkcdc2.1+flink web平台。因为后面考虑到hudi的数据要存到oss上，所以要放这几个包进来（关于oss的配置详细可参考oss配置文档）将hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar包放入到以下路径。以下数据证明mysqlbinlog--hudi--hive的链路是成功的。1.先查询mysql中ID为200的数据和flink DAG目前的状态。

2024-07-22 21:44:01 2459

原创基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

但是这样有个问题是当集群有多个用户运行Hive查询时会有问题，应避免为每个用户的会话分配固定数量的executor，因为executor分配后不能回其他用户的查询使用，如果有空闲的executor，在生产环境中，计划分配好executor可以更充分的利用Spark集群资源。启动并发GC周期时的堆内存占用百分比. G1之类的垃圾收集器用它来触发并发GC周期,基于整个堆的使用率,而不只是某一代内存的使用比. 值为 0 则表示"一直执行GC循环". 默认值为 45.。本集群分别设置为3G和1G。

2024-07-22 09:43:21 2589

原创利用Grafana与系统表监控ClickHouse查询

我们往往需要关心数据库的查询执行情况，特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。

2024-07-21 22:02:23 1247 1

原创 Clickhouse重复数据处理

Kafka是Apache旗下的一款分布式流媒体平台，Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。名词解释：Producer=生产者Queue=队列Consumer=消费者。

2024-07-21 21:59:49 975

原创 CDH6.1.1 impala3.1.0升级到3.4.1

编译impala CDH6.1.1对应的Impala基础版本是Apache Impala 3.1.0，当然还打了不少补丁。Apache Impala是以源码的形式release的，因此需要自行在对应的平台上编译。找一个跟集群环境一致的机器。由于Cloudera maven repo URL变更，需要修改pom.xml才能编译成功（IMPALA-9815），我们打上 IMPALA-9815 的commit: https://github.com/apache/impala/commit/481ea4

2024-07-21 21:39:21 717

原创统计HDFS中文件数量、大小、以及在某范围大小的文件数量

使用：hdfs dfs -ls -R / |grep ^-数据保存在 data.txt 文件中；

2024-07-21 21:36:24 1474

原创使用Hadoop patch包修复的一次经历

红色部分有git的a和b路径，一定要在建立a和b的路径，把这个项目分别复制到这两个文件夹下，需要修复的时候提示找不到路径。注意，此patch包一定要放到hadoop-rel-release-3.1.2 目录下，否则也会提示找不到路径。注意：这个是修复/hadoop-hdfs-project/项目下的代码。打开patch包，查看一下包放置的路径和需要修复的代码。StripedBlockUtil.java中修复的部分。下面java代码中修复的部分(只摘取了一小段)下载针对修复3.1.x版本的patch包。

2024-07-21 10:59:52 549

原创 cdh6.1.1的hive升级到CDH6.3.2的hive

我们查看 upgrade-2.1.1-cdh6.1.0-to-2.1.1-cdh6.2.0.mysql.sql 这个脚本，发现只是对 DBS 表新增了一个CREATE_TIME字段，然后再更新了一些CDH_VERSION的SCHEMA_VERSION信息，没有重大的变更。只需要把这个cdh6.1.1的hive包exec在spark的hive文件夹中更新掉CDH6.3.2的即可。在编译的过程中，发现有些Cloudera的包下载不下来的，需要新添加mirror。在IDEA中查找代码发现，确实是少了这个字段.

2024-07-21 10:32:14 1042

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

CDH缩容，主要是用于减少服务器的台数

apache-ranger-2.4.0.tar.gz

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

ensorflow及pytorch安装

hive监控巡检优化文档

onceanbase的官网文档

互联网产品经理需要学习的技能

apache-atlas-2.1.0-bin.tar.gz

空空如也