自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【StarRocks】自定义UDF

starrocks自定义udf,实现字符拆转拼音

2022-10-17 15:25:46 1946

原创 Seatunnel源码解析(6) -Web接口启动Seatunnel

Seatunnle(源waterdrop),源码解析,二次封装

2022-04-09 15:36:45 4841 2

原创 Seatunnel源码解析(5) -修改启动LOGO

Seatunnel源码解析(5) -修改启动LOGO需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。因此目前有如下几个相关的需求:可以通过Web接口,传递参数,启动一个Seatunnel应用可以自定义日志,收集相关指标,目前想到的包括:应用的入流量、出流量;启动时间、结束时间等在任务结束后,可以用applicationId自动从yarn上收集日志(一是手动收集太麻烦,二是时间稍长日志就没了)材料Seatunnel:2.0.5目前

2022-03-20 22:04:37 2253 1

原创 Seatunnel源码解析(4) - 启动Spark/Flink程序

Seatunnel源码解析(4) - 启动Spark/Flink程序需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。因此目前有如下几个相关的需求:可以通过Web接口,传递参数,启动一个Seatunnel应用可以自定义日志,收集相关指标,目前想到的包括:应用的入流量、出流量;启动时间、结束时间等在任务结束后,可以用applicationId自动从yarn上收集日志(一是手动收集太麻烦,二是时间稍长日志就没了)材料Seatunnel:2.

2022-03-20 22:01:12 2896

原创 Seatunnel源码解析(3)-加载插件

Seatunnel源码解析(3)-加载插件需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。因此目前有如下几个相关的需求:可以通过Web接口,传递参数,启动一个Seatunnel应用可以自定义日志,收集相关指标,目前想到的包括:应用的入流量、出流量;启动时间、结束时间等在任务结束后,可以用applicationId自动从yarn上收集日志(一是手动收集太麻烦,二是时间稍长日志就没了)材料Seatunnel:2.0.5目前官方2版本

2022-03-20 21:59:44 2924

原创 Seatunnel源码解析(2)-加载配置文件

Seatunnel源码解析(2)-加载配置文件需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。因此目前有如下几个相关的需求:可以通过Web接口,传递参数,启动一个Seatunnel应用可以自定义日志,收集相关指标,目前想到的包括:应用的入流量、出流量;启动时间、结束时间等在任务结束后,可以用applicationId自动从yarn上收集日志(一是手动收集太麻烦,二是时间稍长日志就没了)材料Seatunnel:2.0.5目前官方2

2022-03-20 21:58:56 3095

原创 Seatunnel源码解析(1)-启动应用

Seatunnel启动流程解析启动一个Spark应用编写配置文件env { # seatunnel defined streaming batch duration in seconds spark.streaming.batchDuration = 5 spark.app.name = "seatunnel" spark.ui.port = 13000}source { socketStream {}}transform { split { fiel

2022-03-20 21:56:42 4346

原创 学习·Apache Doris元数据管理

记·Apache Doris元数据管理一、 关键词二、 整体架构三、 元数据内容四、 高可用元数据五、 元数据镜像存储一、 关键词FE、BE、bdbjeFEFrontend,即 Doris 的前端节点。主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。BEBackend,即 Doris 的后端节点。主要负责数据存储与管理、查询计划执行等工作。bdbje全称Oracle Berkeley DB Java Edition,在Doris 中,使用 bdbje 存放Dori

2022-02-28 20:02:42 3380

原创 记一次·ulimit: open files: cannot modify limit:不允许操作

记一次·ulimit: open files: cannot modify limit:不允许操作一、背景在安装StarRocks,启动be进程的时候,执行start-be.sh,报错ulimit: open files: cannot modify limit:不允许操作。查看启动脚本,发现脚本会检查nofile(可打开文件数),如果小于60000,则会调用ulimit -n 65535设置nofile的值。但是在设置的时候就报了标题所示的异常。# start_be.shif [[ $(u

2022-02-20 22:45:50 5827 1

原创 记一次·Spark读Hbase

记一次·Spark读Hbase一 、背景过年回来,数仓发现hive的一个表丢数据了,需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据,有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份,并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。HBase表内,只有一个列族info,列族内只有一个列value。value为“|”分割的字段字符串。“|”切割字符串得到最后一个字段为数据的时间戳,记为ts。

2022-02-20 22:18:14 767

原创 记一次·Fluentd File Buffer

记一次·Fluentd File Buffer—— buffer_queue_limit与buffer_chunk_limit一、背景使用fluentd,配置tail source采集日志文件,file buffer作为缓存,发送到下游三台节点的端口。监控告警,fluentd的file buffer堆积550M+,处理该问题后,思考类似这样的buffer堆积,是否会导致数据丢失。二、操作结论是不会丢数据官方地址:fluentd官方文档查看官网0.12版本文档。侧边目录找到Buffer Pl

2022-02-09 23:19:08 903

原创 一起学数据仓库-零

数据仓库建设前期准备一、数仓概念二、项目需求及架构设计1. 项目需求分析2. 项目框架二、机器规划三、前期准备新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、数仓概念数据仓库( Data Warehouse ),是

2022-01-03 20:12:24 1237

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除