![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据实战
数据湖填坑
这个作者很懒,什么都没留下…
展开
-
CDH5 6 7安装包
链接:https://pan.baidu.com/s/1ODW620C_0tviXExgae0EJQ提取码:1234原创 2021-05-31 18:23:52 · 1075 阅读 · 11 评论 -
linux中物理cpu、逻辑cpu以及core、vcore
linux中物理cpu、逻辑cpu以及core、vcorelinux查看物理cpu:cat /proc/cpuinfo | grep 'physical id' | sort | wc -llinux查看cpu中core的个数:cat /proc/cpuinfo | grep 'cpu cores' | uniq查看逻辑cpu个数:cat /proc/cpuinfo | grep 'processor' | wc -l总核数=物理cpu个数 * 每个物理cpu的核数总逻辑cpu个数=总原创 2021-09-24 09:42:30 · 2339 阅读 · 2 评论 -
flinksql on zeppelin安装及使用
zeppelin简介 Flink SQL的默认开发方式是通过Java/Scala API编写,与纯SQL化、平台化的目标相去甚远。目前官方提供的FlinkSQL Client仅能在配备Flink客户端的本地使用,局限性很大。而Ververica开源的Flink SQL Gateway组件是基于REST API的,仍然需要二次开发才能供给上层使用,并不是很方便。 鉴于有很多企业都无法配备专门的团队来解决Flink SQL平台化的问题,那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢?答案就原创 2021-08-11 19:23:54 · 567 阅读 · 0 评论 -
hive数据倾斜及处理案例
什么是数据倾斜数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成。数据倾斜的现象当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。hive数据倾斜的原因1.空值产生的数据倾斜2.不同数据类型关联产生的数据倾斜3.原创 2021-08-05 17:27:33 · 1054 阅读 · 0 评论 -
1.安装flink-1.12.2
FLINK on YARN模式解压安装包:tar -zvxf flink-1.12.2-bin-scala_2.11.tgz /opt/修改yarn配置,设置application master重启时尝试的最大次数(cdh内有此参数,默认是2):<property><name>yarn.resourcemanager.am.max-attempts</name><value>10</value><description>原创 2021-07-29 16:17:17 · 247 阅读 · 0 评论 -
CDH6 kafka如何彻底删除topic及数据
标题CDH6 kafka如何彻底删除topic及数据删除kafka topic及其数据,发现都会偶然出现无法彻底删除kafka的情况。本人亲测并总结了以下流程。第一步:设置 auto.create.topics.enable = false,默认设置为true。如果设置为true,则produce或者fetch不存在的topic也会自动创建这个topi。同时需要认真把生产和消费程序彻底全部停止。第二步:在CDH界面,找到kafka的配置,或者server.properties设置delete.to原创 2021-06-30 16:01:41 · 711 阅读 · 0 评论 -
UDF开发入门实例
简单UDF示例–字母大小写转换第一步:创建maven java 工程,导入jar包<repositories><repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><depen原创 2021-06-08 18:26:58 · 209 阅读 · 0 评论 -
实战 | 离线搭建CDH6.20平台 踩坑实录
一.CDH安装介绍平台版本:CDH6.20安装方式:yum源离线安装传输介质:U盘节点数量:3台二.CDH所需离线安装包及文件下载地址所需安装包及parcels的下载地址:1.https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/cloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm2.https://archive.cloudera.com/cm6/6.2.0/redha原创 2021-03-09 14:13:17 · 912 阅读 · 8 评论