![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
4935同学
大数据开发者,学习和记录工作中常用的知识,有志同道合的小伙伴欢迎一起交流学习~
展开
-
Seatunnel和web快速安装详解
Apache SeaTunnel里面的Connector对应的jar包需要自己下载,在执行自动下载jar包前,进入apache-seatunnel-2.3.3,查看vim bin/install-plugin.sh内容,主要内容就是下载jar包,默认是从mvvm下载,下载速度太慢,我这边安装了maven,并且配置了阿里云仓库,因此可以直接将下图中命令替换,从maven中下载,seatunnel提供了很多数据源jar包,需要下载好,否则会出现无法创建数据源等各种问题;看到是从阿里云下载的,等待下载完成即可。原创 2024-04-08 16:56:32 · 2784 阅读 · 5 评论 -
Kafka安全认证机制详解之SASL_PLAIN
上面配置是新增了两个用户,admin和tly,这两个用户都是普通用户,KafkaServer中的username、password配置的用户和密码,是用来broker和broker连接认证。在本例中,admin是代理broker间通信的用户。这个时候使用auth.conf已经不能创建topic了,使用admin.conf可以创建,因为admin账号和配置的超级管理员一致;使用权限配置并且超级用户是admin,这个用户和我们上面配置的列表中的admin用户相互映射,每个机器都需要配置然后重启所有节点。原创 2024-01-02 17:18:22 · 3008 阅读 · 0 评论 -
Hive调优汇总
第一个MR Job中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;2、文件的数量决定了MapReduce中Mapper数量,小文件越多,Mapper的任务越多,每个Mapper都会对应启动一个JVM来运行,每个Mapper执行数据很少、个数多,导致占用资源多,甚至这些任务的初始化可能比执行的时间还要多,严重影响性能;值为 + 正序排序,值为 - 倒序排序;原创 2023-04-07 09:34:35 · 941 阅读 · 0 评论 -
Flink总结之一文彻底搞懂FlinkSQL
Flink在开发过程中主要还是用sql,使用sql能处理百分之八十左右的开发,其余的场景才需要使用处理函数进行处理,这次就对Flinksql模块进行总结汇总。Flink除了sql模块还有Table Api模块,Table Api模块用的比较少,不做特殊讲解。在生产环境中如果使用sql模块尽量使用1.13版本及以上,因为1.9版本合并了阿里巴巴的Blink才有了大的改变,1.12版本做了功能上的完善,但是不稳定,1.13是个版本,说明文档:Release Notes - Flink 1.13原创 2023-03-24 17:47:57 · 255 阅读 · 0 评论 -
华为ROMA平台遇到的常见问题汇总
写完roma自定义后端,在自定义后端模块直接可以测试、发布、部署等操作,在这个界面点测试的时候要注意,可能我们自定义代码里有循环调用某些接口的逻辑,时间很容易超过15s,如果超过15s,就会返回timeout的错误,因此,如果报错了,可以去API管理模块进行调试,如果返回的数据集较大,后面的数据会被截断。roma的任务管理模块和自定义后端模块,如果是很多人协同开发的话,所有的任务都会显示,如果想查看只有自己开发的任务,是没有这个模块的,希望后面华为优化下吧。原创 2023-03-24 11:55:57 · 832 阅读 · 2 评论 -
Flink总结之彻底搞懂部署模式
Flink是我们实时开发过程中绕不开的技术栈,通过本文可以彻底搞懂Flink的部署模式,更深入了解Flink架构。原创 2023-03-15 23:45:42 · 1414 阅读 · 3 评论 -
Flink总结之一文彻底搞懂处理函数
处理函数是Flink底层的函数,工作中通常用来做一些更复杂的业务处理,这次把Flink的处理函数做一次总结,处理函数分好几种,主要包括基本处理函数,keyed处理函数,window处理函数,通过源码说明和案例代码进行测试。处理函数就是位于底层API里,熟悉处理函数能够更好的处理Flink流处理。原创 2023-03-23 01:04:11 · 117 阅读 · 0 评论 -
Flink总结之一文彻底搞懂时间和窗口
Flink中时间语义是非常丰富的,总共有三种,分别是事件时间(Event Time)、处理时间(Processing Time)和摄入时间(Ingestion Time),丰富的时间语义加上水位线( Watermarks)功能,让我们在处理流式数据更加轻松。在Flink中窗口也定义的非常全面,有计数窗口(Count Window)和时间窗口(Time Window),在窗口切分上有份滚动窗口(Tumbling Windows)、滑动窗口(Sliding Windows)、会话窗口等原创 2023-03-20 23:17:25 · 437 阅读 · 0 评论 -
Flink总结之彻底搞懂Flink架构
Flink是目前最火的实时流处理框架,这次总结下关于Flink的组件和架构相关的知识,其中包括JobMaster和TaskManager的功能介绍以及作业的提交流程和调度原理,让我们开发不但知道Flink的怎么用的,更能清楚的了解Flink底层的运行逻辑,加深我们对Flink的理解。原创 2023-03-16 00:08:33 · 158 阅读 · 0 评论 -
大数据组件Maxwell采集Mysql日志报错: server_id is ‘0‘. Maxwell will not function without a server_id being set.
背景:由于最近项目突然使用实时数据分析,因此架构采集使用maxwell实时采集mysqlbinlog日志并推送到kafka,然后在本地搭建了实时数仓开发环境,mysql使用docker安装,然后采用maxwell进行采集。原创 2023-03-14 18:21:18 · 660 阅读 · 0 评论 -
数仓工具-JAVA生成时间维表数据代码
JAVA生成日期数据维表并导出到EXCEL中,方便导入到各种数据库或数据仓库中原创 2023-03-11 23:19:44 · 383 阅读 · 2 评论 -
Doris总结
doris、dorisdb、总结原创 2022-07-04 14:45:57 · 939 阅读 · 0 评论 -
DAMA数据治理认证 CDGA 知识点总结:0.CDGA、CDGP介绍
DAMA 数据治理 CDGA CDGP原创 2023-03-02 18:04:30 · 1147 阅读 · 0 评论 -
DAMA数据治理认证 CDGA 知识点总结:1.数据管理(4分)
DAMA CDGA 数据治理认证知识点总结原创 2023-03-10 11:41:20 · 893 阅读 · 0 评论 -
Centos安装/卸载Docker步骤
Centos安装/卸载Docker步骤 授权普通用户操作Docker原创 2023-03-05 18:34:44 · 298 阅读 · 0 评论 -
Vmware克隆虚拟机后的配置操作
我们平常在使用vmware作为虚拟机平台,有时会单独新增一个节点来做一些功能或者单独部署一些组件等等,这里简单记录小我在重新重新克隆虚拟机后的一个设置,包括网络,用户名等等。原创 2023-03-05 16:59:23 · 4111 阅读 · 0 评论 -
Docker镜像上传到阿里云
地址:https://promotion.aliyun.com/ntms/act/kubernetes.html。1.4 点击镜像仓库-创建镜像仓库,选择刚刚创建的命名空间,填写完信息后点击下一步,创建完成。1.5 点击镜像仓库-基本信息,会显示下面的操作指南,1.1 进入后选择登录,登录成功后在搜索页面搜索。1.3 选择命名空间,并新建命名空间。点击镜像版本即可查看到上传的镜像。1.2 点击进入到个人实例中。,填写完密码后点击确定。原创 2023-01-18 20:24:17 · 438 阅读 · 0 评论