数据湖填坑
码龄5年
关注
提问 私信
  • 博客:19,378
    19,378
    总访问量
  • 16
    原创
  • 2,377,426
    排名
  • 23
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:内蒙古
  • 加入CSDN时间: 2020-07-07
博客简介:

80工龄程序员

查看详细资料
个人成就
  • 获得15次点赞
  • 内容获得36次评论
  • 获得73次收藏
创作历程
  • 2篇
    2022年
  • 14篇
    2021年
成就勋章
TA的专栏
  • linux
    2篇
  • 数据湖踩坑实例
    5篇
  • 大数据实战
    8篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

linux通过防火墙iptables做隔离端口的脚本

dodone。
原创
发布博客 2022.09.28 ·
725 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

flink1.12.2+hudi0.9.0测试

1.环境准备1.1、flink1.12.21.1.1 编译包下载:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz1.1.2 flink的部署可参考上篇:https://blog.csdn.net/weixin_49218925/article/details/1155110221.2、hudi0.9.0已发布,可直接下载hudi-flink-bundle_2
原创
发布博客 2022.02.18 ·
1102 阅读 ·
1 点赞 ·
2 评论 ·
1 收藏

随笔 hash hash表 hashcode

hashhash是一个函数,该函数中的实现就是一种算法,通过一系列的算法,把任意长度的输入,变换成固定长度的输出,该输出就是散列值。不同的输入可能会散列成相同的输出,所以不能从散列值来确定输入值。hash表这个时候,我们就需要知道另一个东西,hash表,通过hash算法得到的hash值就在这张hash表中,也就是说,hash表就是所有的hash值组成的,有很多种hash函数,也就代表着有很多种算法得到hash值。hashcodehashcode就是通过hash函数得来的,通俗的说,就是通过某一种算
原创
发布博客 2021.10.26 ·
201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux|常用的脚本:

查找某个类在哪个jar包中:#!/bin/bashls *.jar | while read jarfile;do echo "$jarfile";jar -tf $jarfile | grep " "; done#优化后的ls *.jar | while read jarfile;do jar -tf $jarfile | grep " "; if [$? -eq 0]; then echo "find class in jar:"$jarfile;fi; done...
原创
发布博客 2021.10.09 ·
198 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux中物理cpu、逻辑cpu以及core、vcore

linux中物理cpu、逻辑cpu以及core、vcorelinux查看物理cpu:cat /proc/cpuinfo | grep 'physical id' | sort | wc -llinux查看cpu中core的个数:cat /proc/cpuinfo | grep 'cpu cores' | uniq查看逻辑cpu个数:cat /proc/cpuinfo | grep 'processor' | wc -l总核数=物理cpu个数 * 每个物理cpu的核数总逻辑cpu个数=总
原创
发布博客 2021.09.24 ·
2598 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

flinksql on zeppelin安装及使用

zeppelin简介 Flink SQL的默认开发方式是通过Java/Scala API编写,与纯SQL化、平台化的目标相去甚远。目前官方提供的FlinkSQL Client仅能在配备Flink客户端的本地使用,局限性很大。而Ververica开源的Flink SQL Gateway组件是基于REST API的,仍然需要二次开发才能供给上层使用,并不是很方便。 鉴于有很多企业都无法配备专门的团队来解决Flink SQL平台化的问题,那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢?答案就
原创
发布博客 2021.08.11 ·
648 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive数据倾斜及处理案例

什么是数据倾斜数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成。数据倾斜的现象当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。hive数据倾斜的原因1.空值产生的数据倾斜2.不同数据类型关联产生的数据倾斜3.
原创
发布博客 2021.08.05 ·
1173 阅读 ·
4 点赞 ·
0 评论 ·
30 收藏

1.安装flink-1.12.2

FLINK on YARN模式解压安装包:tar -zvxf flink-1.12.2-bin-scala_2.11.tgz /opt/修改yarn配置,设置application master重启时尝试的最大次数(cdh内有此参数,默认是2):<property><name>yarn.resourcemanager.am.max-attempts</name><value>10</value><description>
原创
发布博客 2021.07.29 ·
299 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH6 kafka如何彻底删除topic及数据

标题CDH6 kafka如何彻底删除topic及数据删除kafka topic及其数据,发现都会偶然出现无法彻底删除kafka的情况。本人亲测并总结了以下流程。第一步:设置 auto.create.topics.enable = false,默认设置为true。如果设置为true,则produce或者fetch不存在的topic也会自动创建这个topi。同时需要认真把生产和消费程序彻底全部停止。第二步:在CDH界面,找到kafka的配置,或者server.properties设置delete.to
原创
发布博客 2021.06.30 ·
775 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

UDF开发入门实例

简单UDF示例–字母大小写转换第一步:创建maven java 工程,导入jar包<repositories><repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><depen
原创
发布博客 2021.06.08 ·
257 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

CDH5 6 7安装包

链接:https://pan.baidu.com/s/1ODW620C_0tviXExgae0EJQ提取码:1234
原创
发布博客 2021.05.31 ·
1189 阅读 ·
7 点赞 ·
11 评论 ·
7 收藏

flinksql写入hudi 踩坑实录

flinksql写入hudi测试环境:Flink 1.11.1 hudi 0.8.0Hadoop 3.0.0 Hive 2.1.1准备工作:1.安装flink 1.11.1,要下载带hadoop版本的;2.下载hudi-flink-bundle_2.1?.jar,并放入$FLINK_HOME/lib下。下载地址: https://repo.maven.apache.org/maven2/org/apache/hudi/hudi-flink-bundle_2.11/具体实施步骤:
原创
发布博客 2021.04.08 ·
4918 阅读 ·
1 点赞 ·
2 评论 ·
9 收藏

Flinksql读取Kafka写入Iceberg 实践亲测

1. Presto简介1 Presto概念Presto是 Facebook 推出的一个开源的分布式SQL查询引擎,数据规模可以支持GB到PB级,主要应用于处理秒级查询的场景。Presto 的设计和编写完全是为了解决像 Facebook 这样规模的商业数据仓库的交互式分析和处理速度的问题。注意: 虽然 Presto 可以解析 SQL,但它不是一个标准的数据库。不是 MySQL、Oracle 的代替品,也不能用来处理在线事务(OLTP)。1.2 Presto 应用场景Presto 支持在线数据
原创
发布博客 2021.04.06 ·
1901 阅读 ·
0 点赞 ·
3 评论 ·
2 收藏

实战 | 离线搭建CDH6.20平台 踩坑实录

一.CDH安装介绍平台版本:CDH6.20安装方式:yum源离线安装传输介质:U盘节点数量:3台二.CDH所需离线安装包及文件下载地址所需安装包及parcels的下载地址:1.https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/cloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm2.https://archive.cloudera.com/cm6/6.2.0/redha
原创
发布博客 2021.03.09 ·
998 阅读 ·
1 点赞 ·
8 评论 ·
3 收藏

测试hudi-0.7.0对接spark structure streaming

测试hudi-0.7.0对接spark structure streaming测试环境Hudi version :0.7.0Spark version :2.4.0Hive version :2.1.1Hadoop version :3.0.0Storage (HDFS/S3/GCS..) :HDFSRunning on Docker? (yes/no) :no测试内容表类型:copy on write插入方式:bulkinsert控制文件大小:clustering配置是否同步hi
原创
发布博客 2021.03.05 ·
650 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

iceberg对接flinksql测试

Apache Iceberg对接Flinksql测试Apache Iceberg简介我们可以简单理解为他是基于计算层(flink , spark)和存储层(orc,parqurt)的一个中间层,我们在hive建立一个iceberg格式的表。用flink或者spark写入iceberg,然后再通过其他方式来读取这个表,比如spark,flink,presto等。○ 在文件Format(parquet/avro/orc等)之上实现Table语义。 ■ 支持定义和变更Schema ■ 支持Hidd
原创
发布博客 2021.03.05 ·
1738 阅读 ·
1 点赞 ·
7 评论 ·
4 收藏
加载更多