十八闲客的博客,专注于大数据运维

专注于大数据运维领域,资深大数据运维,Apache dolphinscheduler committer, Apache Bigtop Manager Contributor

  • 博客(36)
  • 资源 (5)
  • 收藏
  • 关注

原创 slurm集群监控部署

●一些短期运行的作业的生命周期过短,难以有效地将必要的指标数据供给到 Server 端,它们一般会采用推送(Push)方式输出指标数据, Prometheus 借助于 Pushgateway 接收这些推送的数据,进而由 Server 端进行抓取。随着公司业务的不断发展,业务种类的增加、服务器数量的增长和网络环境的复杂以及版本发布频繁,从而不可避免带来了线上事故的增多,因此需要对服务器进行全方位的监控,提前预警,急需一个工具来实现解决这个问题,而Grafana的出现完美解决了这个问题。

2024-08-29 17:07:22 121

原创 使用kubeadm搭建高可用的K8s集群

kubeadm是官方社区推出的一个用于快速部署kubernetes集群的工具。

2024-08-12 11:45:50 317

原创 HDFS的NameNode堆内存估算

在HDFS中,数据和元数据是分开存储的,数据文件被分割成若干个数据块,每一个数据块默认备份3份,然后分布式的存储在所有的DataNode上,元数据会常驻在NameNode的内存中,而且随着数据量的增加,在NameNode中内存的元数据的大小也会随着增加,那么这个时候对NameNode的内存的估算就变的非常的重要了。假设现在有一个192MB的文件,数据块的大小是默认的128M,那么这个192MB的文件会被切分成两个数据块,一个数据块的大小是128MB,另一个数据块的大小是64MB。

2024-08-12 11:03:28 364

原创 CDH 集群 使用 JindoFS SDK 访问 OSS

CDH(Cloudera's Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。通过集群管理工具Cloudera Manager增加OSS的Access Key、Access Key Secret、Endpoint等配置,并根据Cloudera Manager提示重启集群和部署客户端配置。​),将sdk包安装到hadoop的classpath下。

2024-08-12 09:04:51 878

原创 CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj_os/tp_device/* oss://dbbigdatapro/group/user/tools/meta/hive-temp-table/kstj_os/tp_device。各个节点上传jindofs-sdk.jar到/root/目录下。在yarn的界面操作以下。

2024-08-10 08:59:08 36

原创 hue无法执行批处理作业解决方案

提示hdfs的/user/oozie/share/lib目录不存在,原因是因为没有安装oozie的共享库。点击oozie角色,操作中点击安装oozie共享库。在执行批处理作业的时候,报作业为FAILED状态。查看执行的过程中发现:oozie的问题。脚本中没有报错,问题得到解决。

2024-08-10 05:43:17 49

原创 Apache Dolphinscheduler版本差异的配置造成的故障处理

dolphinscheduler1.3.4的common.properties的配置。dolphinscheduler1.3.8的common.properties的配置。下面的这个配置成%s,因为代码中隐藏了,不然无法获取到yarn的任务状态信息。下面的这个配置中8088直接在配置成端口即可。1.3.8改了配置之后任务正常,如下。

2024-08-10 05:39:24 52

原创 Doris 数仓使用规范(经验版)

对于历史数据,如果数据量比较小我们可以创建历史分区(比如年分区,月分区),将所有历史数据放到对应分区里。类似这样通过Hint方式去设置Session 会话变量,不要设置全局的系统变量。【强制】数据库字符集指定utf-8,并且只支持utf-8。4. 使用PrepareStatement模板。

2024-08-10 05:34:40 44

原创 Kudu_tool备份还原使用文档

Kudu表数据和hive表数据进行从阿里云迁移到私有云,数据300G需要进行迁移,固编写了此工具方便运维使用进行迁移Kudu表数据和hive表数据。

2024-08-10 05:30:04 614

原创 xCat部署及分发操作系统

一、环境准备此次安装部署均在VMware虚拟机上运行。系统采用通用稳定的centos7系统,移植到其他(linux)系统应该问题不大。软件服务器的VMware虚拟机的创建部分就跳过了.注意事项:1.虚拟机的网络采用NAT模式2.虚拟的DHCP关闭,否则和xcat的DHCP冲突2.2系统内核优化,使用脚本优化(管理节点操作)2.3配置主机名(管理节点操作)2.4禁用防火墙三、部署NTP时间服务器1.NTP服务端+客户端crontab定时器定时执行ntpdate同步时间2.NTP服务端

2024-08-09 14:42:39 146

原创 CDH集成Paimon+flink+hive的测试联调

Apache Paimon是一种湖格式,可以通过Flink和Spark构建实时Lakehouse架构,用于流式和批处理操作。Paimon创新地结合了湖格式和LSM(日志结构合并树)结构,将实时流式更新引入湖架构。

2024-08-08 19:58:24 1445 1

原创 高性能计算收藏

- Slurm资源管理与作业调度系统HA高可用配置。-- Slurm资源管理与作业调度系统安装配置。-- Linux高性能计算集群配置。-- Slurm作业管理系统使用。-- slurm文档集。

2024-08-08 10:47:36 231

原创 使用python监控HDFS文件的增量【优化中】

3.2删除文件记录 hdfs_delete_file_record.py。3.4文件路径的天监控 hdfs_path_Monitor_day.py。3.3文件路径的小时监控 hdfs_path_Monitor.py。3、每天计算文件大小,参考:hdfs_path_Monitor_day.py。3.2删除文件记录 hdfs_delete_file_record.py。3.4文件路径的天监控 hdfs_path_Monitor_day.py。3.3文件路径的小时监控 hdfs_path_Monitor.py。

2024-08-04 12:47:31 210

原创 CDH的CM金丝雀Canary报错

Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录。Hive Metastore canary 创建 hue hdfs 主目录失败。2)hdfs datanode是否健康,磁盘空间是否空闲,可自行上传文件测试。如果都确认过还报错,请重启cloudera-scm-server。3)根据错误提示查看目录权限,如果有问题,改为777。1)hdfs是否处于safemode,正常是off。CM金丝雀Canary报错。1 HDFS 金丝雀。

2024-08-04 12:44:53 437

原创 hive 查看表权限命令行 hive 查询表权限

4、 查看当前具有的角色。7、查看某用户的所有角色。2、删除用户acl权限。3、删除所有acl权限。5、查看所有存在的角色。

2024-08-04 12:42:23 231

原创 统计HDFS中文件数量、大小、以及在某范围大小的文件数量

使用:hdfs dfs -ls -R / |grep ^-数据保存在 data.txt 文件中;

2024-08-04 12:40:36 399

原创 Slurm集群部署

同时,MUNGE的高效性保证了认证过程不会成为系统性能的瓶颈,使得SLURM能够在大规模集群中高效运行。通过NIS,系统管理员可以在一个中心位置管理用户账户和配置文件,简化了跨多个系统的用户管理工作,提高了网络的可维护性和安全性。MUNGE(MUNGE Uid ‘N’ Gid Emporium)是一种用于认证的工具,特别设计用于在分布式系统中验证用户的身份。在SLURM环境中,NIS通过集中管理用户账户和权限,确保在整个计算集群中用户身份的一致性,简化了用户管理,减少了维护成本。

2024-07-31 14:35:28 671

原创 Kudu_tool备份还原使用文档

Kudu表数据和hive表数据进行从阿里云迁移到私有云,数据300G需要进行迁移,固编写了此工具方便运维使用进行迁移Kudu表数据和hive表数据。

2024-07-28 20:06:02 134

原创 Clickhouse服务器CPU 99.99%的处理过程

查看报错日志,查询的数据大于max blokc的原因导到的,主要是因查询进入了死循环的状态了。进入服务器,查询正在执行任务的语句。

2024-07-28 09:27:05 322

原创 生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程

1.要多看报错的内容,根据报错的内容一步步的修复2.保证有一台namenode是可用的3.保证各个组件的元数据库是正常使用的.4.修复的时候要胆大心细,操作之前要写好操作方案去实施,不然思路上不清晰,修复起来会出现各种问题5.修复之前要针对元数据库和组件分布到各个主机上要做好备份。

2024-07-28 09:23:04 471

原创 HDFS清理Tarsh的脚本

【代码】HDFS清理Tarsh的脚本。

2024-07-25 09:27:37 39

原创 Hadoop健康检查脚本

【代码】Hadoop健康检查脚本。

2024-07-25 09:25:45 145

原创 Centos7禁用THP(Transparent HugePages)(大数据要关闭此项)

开启THP精髓是提高内存分配效率,减少CPU SYS开销。如果输出结果为[always]表示透明大页启用了。[never]表示透明大页禁用、[madvise]表示(只在MADV_HUGEPAGE标志的VMA中使用THP这个状态就说明都是启用的。3、永久禁用THP(Transparent HugePages )编辑rc.local文件:4、保存退出,然后赋予rc.local文件执行权限:5、最后重启系统,以后再检查THP应该就是被禁用了6、另一

2024-07-24 00:03:26 371

原创 整合Apache Hudi+Mysql+FlinkCDC2.1+CDH6.3.0

flink 1.13.1+hudi0.10+hive2.1.1+cdh6.3.0+mysql5.7+flinkcdc2.1+flink web平台。因为后面考虑到hudi的数据要存到oss上,所以要放这几个包进来(关于oss的配置详细可参考oss配置文档)将hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar包放入到以下路径。以下数据证明mysqlbinlog--hudi--hive的链路是成功的。1.先查询mysql中ID为200的数据和flink DAG目前的状态。

2024-07-22 21:44:01 1315

原创 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

但是这样有个问题是当集群有多个用户运行Hive查询时会有问题,应避免为每个用户的会话分配固定数量的executor,因为executor分配后不能回其他用户的查询使用,如果有空闲的executor,在生产环境中,计划分配好executor可以更充分的利用Spark集群资源。启动并发GC周期时的堆内存占用百分比. G1之类的垃圾收集器用它来触发并发GC周期,基于整个堆的使用率,而不只是某一代内存的使用比. 值为 0 则表示"一直执行GC循环". 默认值为 45.​。本集群分别设置为3G和1G。

2024-07-22 09:43:21 1056

原创 利用Grafana与系统表监控ClickHouse查询

我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。

2024-07-21 22:02:23 458

原创 Clickhouse重复数据处理

Kafka是Apache旗下的一款分布式流媒体平台,Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。名词解释:Producer=生产者Queue=队列Consumer=消费者。

2024-07-21 21:59:49 294

原创 CDH6.1.1 impala3.1.0升级到3.4.1

编译impala CDH6.1.1对应的Impala基础版本是Apache Impala 3.1.0,当然还打了不少补丁。Apache Impala是以源码的形式release的,因此需要自行在对应的平台上编译。找一个跟集群环境一致的机器。由于Cloudera maven repo URL变更,需要修改pom.xml才能编译成功(IMPALA-9815),我们打上 IMPALA-9815 的commit: ​​https://github.com/apache/impala/commit/481ea4

2024-07-21 21:39:21 612

原创 统计HDFS中文件数量、大小、以及在某范围大小的文件数量

使用:hdfs dfs -ls -R / |grep ^-数据保存在 data.txt 文件中;

2024-07-21 21:36:24 330

原创 使用Hadoop patch包修复的一次经历

红色部分有git的a和b路径,一定要在建立a和b的路径,把这个项目分别复制到这两个文件夹下,需要修复的时候提示找不到路径。注意,此patch包一定要放到hadoop-rel-release-3.1.2 目录下,否则也会提示找不到路径。注意:这个是修复/hadoop-hdfs-project/项目下的代码。打开patch包,查看一下包放置的路径和需要修复的代码。StripedBlockUtil.java中修复的部分。下面java代码中修复的部分(只摘取了一小段)下载针对修复3.1.x版本的patch包。

2024-07-21 10:59:52 461

原创 cdh6.1.1的hive升级到CDH6.3.2的hive

我们查看 upgrade-2.1.1-cdh6.1.0-to-2.1.1-cdh6.2.0.mysql.sql 这个脚本,发现只是对 DBS 表新增了一个CREATE_TIME字段,然后再更新了一些CDH_VERSION的SCHEMA_VERSION信息,没有重大的变更。只需要把这个cdh6.1.1的hive包exec在spark的hive文件夹中更新掉CDH6.3.2的即可。在编译的过程中,发现有些Cloudera的包下载不下来的,需要新添加mirror。在IDEA中查找代码发现,确实是少了这个字段.

2024-07-21 10:32:14 894

原创 Atlas2.1.0集成CDH6.3.0部署

Atlas 是什么?Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。如果没有Atlas大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发。

2024-07-21 10:24:42 994

原创 Apache Dolphinscheduler3版本编译zk3.4支持CDH的ZK

我不知道配置文件的指定的位置,在IDEA开发工具中按ctrl+shift+f组合键, 在项目所有文件中搜索:zookeeper.version​。找到打好包生成的目标文件,位置是:项目源码目录\dolphinscheduler-dist\target​。从提示中可以看出来,com.github.eirslett:frontend-maven-plugin这个插件有问题​。首先、看看本地的maven仓库中,有没有把这个插件通过依赖下载出来​。​代码,所以在校验的时候不通过​。指定多线程编译,可以增加​。

2024-07-21 10:20:51 1020

原创 配置impala自动同步HMS元数据

在日常使用如Hive和Spark之类的工具来处理Hive表中的原始数据时,会生成新的HMS元数据(数据库、表、分区)和文件系统元数据(现有分区/表中的新文件)。在以前的Impala版本中,为了获取最新元数据信息,Impala需要手动执行INVALIDATE 或者 REFRESH 命令。随着impala 功能的不断完善,impala 的元数据同步问题终于在impala3.4得到有效的解决,

2024-07-21 10:16:50 840

原创 CDH使用Disk Balancer平衡磁盘HDFS数据​

从 CDH 5.8.2 开始,Cloudera Manager提供了一个全面的存储容量管理解决方案,可以跨节点 (Balancer)、存储类型(Mover)和单个DataNode中的磁盘(磁盘平衡器)。2、显然上述两个磁盘需要进行磁盘平衡,假设要平衡的主机名称为lei-dn-3.example.org,通过如下命令可以生成磁盘平衡任务:​。-ls后面跟着的是上一步生成计划的时间,可以看到有格式如{机器名}.plan.json文件夹(不是一个文件)。通过如下命令可以查询生成的JSON文件:​。

2024-07-21 10:02:04 390

原创 NebulaGraph 3.6的迁移​

提示这个Replace Host in partition and zone successfully代表替换成功了。服务部署目录/opt/nebulagraph。数据存储目录/data/nebula。以上表示原IP到目标IP已经切换完成。查看服务的服务是否正常启动。

2024-07-21 09:40:23 548

CDH缩容,主要是用于减少服务器的台数

CDH缩容,主要是用于减少服务器的台数

2024-08-26

apache-ranger-2.4.0.tar.gz

apache-ranger-2.4.0.tar.gz

2024-08-14

onceanbase的官网文档

onceanbase的官网文档

2024-07-25

hive监控巡检优化文档

hive监控巡检优化文档

2022-05-25

ensorflow及pytorch安装

算法专用的安装平台

2022-05-25

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

CDH6针对hive on spark的调优文档,这个是生产的实战经验

2022-05-25

互联网产品经理需要学习的技能

互联网产品经理需要学习的技能

2022-05-25

apache-atlas-2.1.0-bin.tar.gz

atlas2.1.0与cdh6.3.0的集成安装包,适合做数据地图,数据治理,数据的血缘关系,此包已经打包好,可以直接上生产。

2021-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除