大数据运维
文章平均质量分 79
拾八闲客
十八闲客,醉举杯饮星河。
展开
-
HDFS的NameNode堆内存估算
在HDFS中,数据和元数据是分开存储的,数据文件被分割成若干个数据块,每一个数据块默认备份3份,然后分布式的存储在所有的DataNode上,元数据会常驻在NameNode的内存中,而且随着数据量的增加,在NameNode中内存的元数据的大小也会随着增加,那么这个时候对NameNode的内存的估算就变的非常的重要了。假设现在有一个192MB的文件,数据块的大小是默认的128M,那么这个192MB的文件会被切分成两个数据块,一个数据块的大小是128MB,另一个数据块的大小是64MB。原创 2024-08-12 11:03:28 · 354 阅读 · 0 评论 -
CDH 集群 使用 JindoFS SDK 访问 OSS
CDH(Cloudera's Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。通过集群管理工具Cloudera Manager增加OSS的Access Key、Access Key Secret、Endpoint等配置,并根据Cloudera Manager提示重启集群和部署客户端配置。),将sdk包安装到hadoop的classpath下。原创 2024-08-12 09:04:51 · 874 阅读 · 0 评论 -
Kudu_tool备份还原使用文档
Kudu表数据和hive表数据进行从阿里云迁移到私有云,数据300G需要进行迁移,固编写了此工具方便运维使用进行迁移Kudu表数据和hive表数据。原创 2024-08-10 05:30:04 · 611 阅读 · 0 评论 -
Centos7禁用THP(Transparent HugePages)(大数据要关闭此项)
开启THP精髓是提高内存分配效率,减少CPU SYS开销。如果输出结果为[always]表示透明大页启用了。[never]表示透明大页禁用、[madvise]表示(只在MADV_HUGEPAGE标志的VMA中使用THP这个状态就说明都是启用的。3、永久禁用THP(Transparent HugePages )编辑rc.local文件:4、保存退出,然后赋予rc.local文件执行权限:5、最后重启系统,以后再检查THP应该就是被禁用了6、另一原创 2024-07-24 00:03:26 · 339 阅读 · 0 评论 -
整合Apache Hudi+Mysql+FlinkCDC2.1+CDH6.3.0
flink 1.13.1+hudi0.10+hive2.1.1+cdh6.3.0+mysql5.7+flinkcdc2.1+flink web平台。因为后面考虑到hudi的数据要存到oss上,所以要放这几个包进来(关于oss的配置详细可参考oss配置文档)将hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar包放入到以下路径。以下数据证明mysqlbinlog--hudi--hive的链路是成功的。1.先查询mysql中ID为200的数据和flink DAG目前的状态。原创 2024-07-22 21:44:01 · 1314 阅读 · 0 评论 -
基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优
但是这样有个问题是当集群有多个用户运行Hive查询时会有问题,应避免为每个用户的会话分配固定数量的executor,因为executor分配后不能回其他用户的查询使用,如果有空闲的executor,在生产环境中,计划分配好executor可以更充分的利用Spark集群资源。启动并发GC周期时的堆内存占用百分比. G1之类的垃圾收集器用它来触发并发GC周期,基于整个堆的使用率,而不只是某一代内存的使用比. 值为 0 则表示"一直执行GC循环". 默认值为 45.。本集群分别设置为3G和1G。原创 2024-07-22 09:43:21 · 1036 阅读 · 0 评论 -
利用Grafana与系统表监控ClickHouse查询
我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。原创 2024-07-21 22:02:23 · 428 阅读 · 0 评论 -
Clickhouse重复数据处理
Kafka是Apache旗下的一款分布式流媒体平台,Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。名词解释:Producer=生产者Queue=队列Consumer=消费者。原创 2024-07-21 21:59:49 · 255 阅读 · 0 评论 -
CDH6.1.1 impala3.1.0升级到3.4.1
编译impala CDH6.1.1对应的Impala基础版本是Apache Impala 3.1.0,当然还打了不少补丁。Apache Impala是以源码的形式release的,因此需要自行在对应的平台上编译。找一个跟集群环境一致的机器。由于Cloudera maven repo URL变更,需要修改pom.xml才能编译成功(IMPALA-9815),我们打上 IMPALA-9815 的commit: https://github.com/apache/impala/commit/481ea4原创 2024-07-21 21:39:21 · 609 阅读 · 0 评论 -
统计HDFS中文件数量、大小、以及在某范围大小的文件数量
使用:hdfs dfs -ls -R / |grep ^-数据保存在 data.txt 文件中;原创 2024-07-21 21:36:24 · 279 阅读 · 0 评论 -
Apache Dolphinscheduler3版本编译zk3.4支持CDH的ZK
我不知道配置文件的指定的位置,在IDEA开发工具中按ctrl+shift+f组合键, 在项目所有文件中搜索:zookeeper.version。找到打好包生成的目标文件,位置是:项目源码目录\dolphinscheduler-dist\target。从提示中可以看出来,com.github.eirslett:frontend-maven-plugin这个插件有问题。首先、看看本地的maven仓库中,有没有把这个插件通过依赖下载出来。代码,所以在校验的时候不通过。指定多线程编译,可以增加。原创 2024-07-21 10:20:51 · 1017 阅读 · 0 评论 -
使用Hadoop patch包修复的一次经历
红色部分有git的a和b路径,一定要在建立a和b的路径,把这个项目分别复制到这两个文件夹下,需要修复的时候提示找不到路径。注意,此patch包一定要放到hadoop-rel-release-3.1.2 目录下,否则也会提示找不到路径。注意:这个是修复/hadoop-hdfs-project/项目下的代码。打开patch包,查看一下包放置的路径和需要修复的代码。StripedBlockUtil.java中修复的部分。下面java代码中修复的部分(只摘取了一小段)下载针对修复3.1.x版本的patch包。原创 2024-07-21 10:59:52 · 461 阅读 · 0 评论 -
CDH使用Disk Balancer平衡磁盘HDFS数据
从 CDH 5.8.2 开始,Cloudera Manager提供了一个全面的存储容量管理解决方案,可以跨节点 (Balancer)、存储类型(Mover)和单个DataNode中的磁盘(磁盘平衡器)。2、显然上述两个磁盘需要进行磁盘平衡,假设要平衡的主机名称为lei-dn-3.example.org,通过如下命令可以生成磁盘平衡任务:。-ls后面跟着的是上一步生成计划的时间,可以看到有格式如{机器名}.plan.json文件夹(不是一个文件)。通过如下命令可以查询生成的JSON文件:。原创 2024-07-21 10:02:04 · 382 阅读 · 0 评论 -
Atlas2.1.0集成CDH6.3.0部署
Atlas 是什么?Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。如果没有Atlas大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发。原创 2024-07-21 10:24:42 · 990 阅读 · 0 评论 -
cdh6.1.1的hive升级到CDH6.3.2的hive
我们查看 upgrade-2.1.1-cdh6.1.0-to-2.1.1-cdh6.2.0.mysql.sql 这个脚本,发现只是对 DBS 表新增了一个CREATE_TIME字段,然后再更新了一些CDH_VERSION的SCHEMA_VERSION信息,没有重大的变更。只需要把这个cdh6.1.1的hive包exec在spark的hive文件夹中更新掉CDH6.3.2的即可。在编译的过程中,发现有些Cloudera的包下载不下来的,需要新添加mirror。在IDEA中查找代码发现,确实是少了这个字段.原创 2024-07-21 10:32:14 · 890 阅读 · 0 评论 -
配置impala自动同步HMS元数据
在日常使用如Hive和Spark之类的工具来处理Hive表中的原始数据时,会生成新的HMS元数据(数据库、表、分区)和文件系统元数据(现有分区/表中的新文件)。在以前的Impala版本中,为了获取最新元数据信息,Impala需要手动执行INVALIDATE 或者 REFRESH 命令。随着impala 功能的不断完善,impala 的元数据同步问题终于在impala3.4得到有效的解决,原创 2024-07-21 10:16:50 · 833 阅读 · 0 评论 -
NebulaGraph 3.6的迁移
提示这个Replace Host in partition and zone successfully代表替换成功了。服务部署目录/opt/nebulagraph。数据存储目录/data/nebula。以上表示原IP到目标IP已经切换完成。查看服务的服务是否正常启动。原创 2024-07-21 09:40:23 · 544 阅读 · 0 评论