自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 资源 (14)
  • 收藏
  • 关注

原创 好记性不如烂笔头

1、数据仓库2、Hive3、Hadoop4、Spark5、Flink6、Python7、Java8、Scala9、Milvus10、Hologres11、Spring Boot

2024-01-10 23:16:29 639

原创 VARIANT -SelectDB使用

文章摘要:本文介绍了在数据库中处理Variant类型数据的多种方法。主要内容包括:1)建表时处理Variant列的两种方式(有无hot列);2)查看Subcolumn自动物化的方法;3)数据写入和更新的三种方式(直接插入JSON字符串、使用CAST转换、JSON_SET函数);4)查询已解析和未解析子列的方法;5)多表关联更新时Variant字段初始化的解决方案,重点比较了cast('{}' as jsonb)、cast('{}' as json)和json_object()三种初始化方式的差异。文章提供了

2026-05-21 11:34:23 182

原创 基于Ollama大模型学习

本文介绍了Windows系统下Ollama的安装与使用指南。主要内容包括:1)通过官网或网盘下载安装包;2)详细安装步骤,包括指定路径安装和环境变量配置;3)模型下载方法,提供官方模型库地址;4)基础使用说明,如运行模型命令(ollama run)和查看进程(ollama ps);5)简要提及代码验证环节。文章为初学者提供了完整的Ollama安装流程和基础操作指引。

2026-01-19 12:09:28 1284

原创 SCD缓慢变化维Type1-Type3

摘要:缓慢变化维(SCD)是数据仓库维度建模中处理属性变化的核心技术,主要包括三种类型:Type1直接覆盖旧值,实现简单但丢失历史;Type2新增行记录完整变化历史,存储开销大;Type3通过新增列保留有限历史。Type1适合无历史分析需求的场景,Type2适用于需要完整追踪变化的业务,Type3则用于变化频率低的有限历史记录需求。实际应用中可混合使用不同类型,并需结合Hive等技术特点实现。随着数据技术的发展,SCD处理正向着实时化方向演进。

2025-12-01 13:15:45 871

原创 Maxcompute+API进行数据入湖

本文介绍了基于SpringBoot框架实现的阿里云MaxCompute(ODPS)数据上传API。通过TunnelUploadController接收数据上传请求,使用TunnelUploadService处理数据校验和上传逻辑,主要包括:1)数据有效性检查;2)动态线程池管理;3)数据分片处理;4)多线程并发上传。关键技术点包括:采用8个默认线程动态调整数据分片,通过TableTunnel实现MaxCompute数据写入,支持自动分区创建和类型转换处理。测试结果显示可成功处理50万条数据的并发上传,平均耗

2025-10-21 15:54:01 224

原创 DORIS学习笔记

3.0.8按照此方法同样适用cat /proc/cpuinfo | grep avx2 如果没有返回,则不支持avx2,后续下载包有影响vi /etc/security/limits.conf添加如下内容* soft nofile 1000000* hard nofile 1000000配置文件修改完成后输入 ulimit -n 1000000 执行修改,再次输入ulimit -n检查修改是否生效修改虚拟内存区域至少2000000,编辑/etc/sysctl.confvi /etc/sysctl.conf添

2025-10-18 11:15:43 1253

原创 CLICKHOUSE分布式表初体验

本文介绍了ClickHouse分布式集群的建表模式与验证方法。首先通过创建本地表(ReplicatedMergeTree引擎)和分布式表(Distributed引擎)构建集群存储架构,重点解析了ZooKeeper路径参数和副本标识符的作用。随后通过sales表示例演示了数据插入和分布式查询操作。针对实际应用中出现的AUTHENTICATION_FAILED错误,提供了详细的排查思路,包括检查集群配置文件cluster.xml、macros.xml中的集群名称和分片配置,以及调整users.xml中的访问权限

2025-10-18 10:44:22 1139

原创 Doris

doris3.0.8 创建异步join物化视图。

2025-10-16 11:29:06 376

原创 Flink消费Datahub到ClickhouseSink

本文介绍了解决批量写入多并行度时数组下标越界问题的方案。首先在ClickHouse中创建了销售出库单明细表,然后通过DatahubSourceFunction获取数据源,使用Flink进行数据处理。关键点在于ClickHouseBatchSink中引入ReentrantLock机制,通过加锁确保在高并行度下批量写入时不会出现ArrayList.size大于batchSize导致的数组越界问题。该方案还包含完善的异常处理和重试机制,保证了数据写入的可靠性和稳定性。

2025-09-24 09:32:48 367 1

原创 Docker慢慢学

2、N8N下载3、Kafka4、Mysql。

2025-06-04 17:05:13 547

原创 利用蔡勒公式生成日期维表

c:世纪(注:一般情况下,在公式中取值为已经过的世纪数,也就是年份除以一百的结果,而非正在进行的世纪,也就是现在常用的年份除以一百加一;不过如果年份是公元前的年份且非整百数的话,c应该等于所在世纪的编号,如公元前253年,是公元前3世纪,c就等于-3)m:月(m大于等于3,小于等于14,即在蔡勒公式中,某年的1、2月要看作上一年的13、14月来计算,比如2003年1月1日要看作2002年的13月1日来计算)w对7取模得:0-星期日,1-星期一,2-星期二,3-星期三,4-星期四,5-星期五,6-星期六。

2025-03-31 15:19:10 308

原创 FlinkCDC初体验

【代码】FlinkCDC初体验。

2024-08-16 10:28:48 683

原创 Centos7 安装mysql8.0.39(当前最新版)

安装Mysql8.x版本 yum库, 其中的el7代表的应该是LInux7版本,可以参考阿里云的# MySQL :: 下载 MySQL Yum 存储库,2代表的大概是小版本,可以用更高的,不报错就# 行。下载地址:https://dev.mysql.com/downloads/repo/yum/ 或 http://repo.mysql.com。chown -R mysql /usr/local/mysql/ # 将文件的所有属性改为 mysql 用户。

2024-08-13 15:12:53 3399 4

原创 数据采集工具之Canal

canal.instance.master.address=192.168.140.1:3306 ###修改为自己的mysql信息。到此,我们可以实时获取到mysql数据库的各种操作日志,接下来需要将数据写到哪里 可以按需实现。本文主要介绍canal采集mysql数据的tcp、datahub(kafka)模式如何实现。启动:bin/startup.sh。到此,canal服务端配置完成。c、canal客户端开发。打开看看即可,不需要调整。2、TCP模式的实现。

2024-08-08 11:05:52 1818

原创 数据采集工具之Flume

本文主要实现数据到datahub的采集过程。datahub插件下载。

2024-08-07 15:34:15 591

原创 数据采集工具之Logstash

【快传】我给你发了 lo...ar.gz, 快来看看 https://www.alipan.com/t/LmKbT2eJ9ELywpcXBLHg 点击链接即可保存。「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。5、logstash timestamp 增量到datahub。3、logstash 全量 mysql到datahub。4、logstash number增量到datahub。本文主要实现logstash到datahub的功能。2、logstash文件到datahub。

2024-08-07 15:11:54 425

原创 Spring Boot 3 搭建

【代码】Spring Boot 3 搭建。

2024-06-18 09:59:28 570 1

原创 paddlehub的简单应用

安装完成后重新尝试下载又报错。安装 按需修改并下一步即可。看样子像是缺少Cmake。不好意思还没安装成~~

2024-04-28 11:07:19 1878

原创 PaddleOCR的简单应用

光学字符识别(Optical Character Recognition, OCR),ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术,检测图像中的文本资料,并且识别出文本的内容。那么有哪些应用场景呢?其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中,机器学习已经越来越多的扮演着重要角色,也不再是神秘的东西。OCR的技术路线是什么呢?ocr的运行方式:输入->图像预处理->文字检测->文本识别->输出。

2024-04-24 15:56:27 1439

原创 Python实现exe小工具

3、然后会在路径下生成一个dist文件夹。参数表示你想要一个独立的exe文件。

2024-04-17 10:04:18 482 1

原创 Hive-Sql复杂面试题

3、rollup是卷起的意思,俗称层级聚合,相对于grouping sets能指定多少种聚合,而with rollup则表示从左 往右的逐级递减聚合,如:group by a,b,c with rollup 等价于 group by a, b, c grouping sets( (a, b, c), (a, b), (a), ( )).直到逐级递减为()为止,多适用于有级联关系的组合查询,如国家、省、市级联组合查 询。with cube 是group by后列的所有的维度的任意组合查询。

2024-04-16 16:18:57 1673 2

原创 Flink总结

state大小:为保证Exactly-Once准确一次,对于有两个以上输入管道的 Operator,checkpoint barrier需要对齐,即接受到较快的输入管道的barrier后,它后面数据会被缓存起来但不处理,直到较慢的输入管道的barrier也到达。下游算子收到barrier之后,会暂停自己的数据处理过程,然后将自身的相关状态制作成快照,并保存到指定的持久化存储中,最后向CheckpointCoordinator报告自身快照情况,同时向自身所有下游算子广播该barrier,恢复数据处理。

2024-04-02 10:58:32 740

原创 Flink消费kafka乱序

Kafka主题的分区策略不当:如果一条消息被发送到了多个分区,那么这些消息可能会并行地被多个消费者实例处理,导致顺序不一致。分区内的消息写入不是顺序的:在写入Kafka时,如果没有正确地指定分区和键(key),可能导致消息在分区内的顺序被打乱。Flink任务的并行度不适当:如果Flink任务的并行度过高,会导致一个主题分区被多个任务实例并行处理,降低了顺序性。调整Flink任务的并行度,使之与Kafka主题的分区数量相匹配,以保持消息的顺序。确保从最早的记录开始读取,保证了消息的顺序。是消费者群组的ID。

2024-04-01 14:48:55 978

原创 Linux基本操作

权限分为三种:读(r=4),写(w=2),执行(x=1)。综合起来还有可读可执行(rx=5=4+1)、可读可写(rw=6=4+2)、可读可写可执行(rwx=7=4+2+1)。2.与文件所有者同属一个用户组的其他用户可读可执行 4+1=5。以人类可读的格式显示(例如,自动使用K、M或G为单位)。第二个数字表示与文件所有者同属一个用户组的其他用户的权限。: 磁盘使用情况命令,用于显示目录或文件的大小。1.文件所有者可读可写可执行 4+2+1=7。不加-r ,只有-h是升序 r反转操作。: 对输出进行排序。

2024-04-01 13:24:43 579

原创 Hadoop系列总结

hadoop系列操作

2024-04-01 11:25:01 1373 1

原创 Milvus笔记

Milvus 的CRUD操作

2024-03-20 15:59:46 1248

原创 数据仓库系列总结

一、数据仓库架构二、数据采集三、离线开发四、实时开发五、数据建模六、维度建模七、事实表设计八、数据管理九、数据治理十、数据服务。

2024-03-19 21:09:19 909 1

原创 Milvus Standalone安装

使用Docker Compose安装 Milvus standalone(即单机版),进行一个快速milvus的体验。docker-compose down 停止并删除容器(特别注意以免误删容器)2.系统已经安装docker和docker-compose。docker-compose start 启动容器。docker-compose stop 停止容器。docker-compose ps 查看容器。下载docker-compose。复制docker-compose。的向量数据和索引数据。

2023-11-16 16:19:19 3234

转载 VMware 安装CentOS7

后面配置网络也是需要用到,当然也是可以选择其他的链接方式,大家根据需要来选择。5.这次安装的是Linux,版本为centos7,至于是32位还是64位大家根据自己的电脑来选择,最后点击下一步。软件安装,如果你是已经很熟悉的可以直接最小化安装,但是初学者建议选择带图形化的系统安装,同时选择开发工具。对即将新建的虚拟机进行硬件处理,这里可以选择删除一部分不会用到的硬件,如打印机;安装信息摘要,这里本地化的三个都不需要管,直接默认;6.虚拟机命名,可以直接默认的,然后更改虚拟机文件位置,建议在c盘之外。

2023-11-15 11:27:51 243

原创 Flink RoaringBitmap去重

Roaring64Bitmap 去重只适合去重整形情况

2023-09-25 18:22:24 1347

原创 侧输出流SideOutput

主要功能是通过侧数据流 拆分流数据。

2023-08-28 16:57:19 274

转载 PageRank&ConnectedComponents&Pregel

sendMsg方法执行完成之后,根据顶点处于激活态的条件,顶点5 成功地分别给顶点3 和 顶点6 发送了消息,顶点3 和 顶点6 也成功地接受到了消息。顶点3 给 顶点6 发送消息失败,顶点3 给 顶点2 发送消息成功,此时 顶点3 成功发送消息,顶点2 成功接收消息,所以顶点2 和 顶点3 都成为激活状态,其他顶点都成为钝化状态。顶点3分别发送消息给顶点2失败 和 顶点6失败,顶点2 分别发消息给 顶点1成功、顶点4成功、顶点5失败 ,所以 顶点2、顶点1、顶点4 成为激活状态,其他顶点为钝化状态。

2023-08-18 15:24:59 189

原创 Spark 图计算ONEID 进阶版

Oneid的生成

2023-08-18 14:32:56 1903 1

转载 数仓建模—OneID

ID Mapping是OneID的提前,OneID是ID Mapping的结果,所以要想做OneID必须先做ID Mapping;OneID是为了打通整个数据体系的数据,所以OneID需要以服务的方式对外提供服务,在数仓里面就是作为基础表使用,对外的话我们就需要提供接口对外提供服务。

2023-05-25 16:13:44 1001

原创 Blink 会话窗口解决双流关联ID关联不上问题

通过将留资信息实时同步holo,利用holo做维表的方式,进店记录表通过会话窗口延迟5分钟关联确保数据完全能关联到不会丢失。业务:用户留资在前,然后才会有跟进记录,数据上留资时间必然在进店跟进之前,最小相差时间毫秒级别。表2 是用户留资信息。表1 是用户进店记录。

2023-05-08 14:42:55 349

原创 数据治理体系

数据治理方案需要建立一套完整的体系,包括组织架构、政策和规范、资产清单和元数据管理、数据质量管理、数据安全管理、培训和教育以及工具和技术。这些方面相互配合,共同构成一个完整的数据治理方案。数据治理是一个涵盖多个方面的综合性管理活动,它的目标是确保数据的质量、一致性、安全性、可靠性和合规性。

2023-04-19 13:13:24 618

原创 JIRA学习

建议由项目经理、产品经理或开发经理,创建故事,关联史诗与sprint,同时指给对应的开发。主要原因在于,Jira的任务类型、工作流不可配置,综合考虑,故事的工作流,更合理。sprint周期的长度,应覆盖完整的需求对接、梳理,数据探索、口径对齐、开发、测试及上线的全流程周期。任务完成,或发生变化,出现异常,必须以备注形式,填加在故事或任务中。如果判断,无法完成,需将一个故事,拆分为多个故事。开发经理,可构建以人为中心的看板,用于评估人员工作负荷情况。每日站会、迭代启动会,均以看板为中心,按史诗,逐个遍历。

2023-03-15 11:26:00 753

原创 Nubula学习笔记

不同的图数据库在术语方面可能会略有不同,但是归根结底都是在讲点、边和属性。至于更多的功能,例如标签、索引、约束、TTL、长任务、存储过程和UDF等这些高级功能,在不同图数据库中,会存在明显的差异。图数据库用图来存储数据,而图是最接近高度灵活、高性能的数据结构之一。图数据库是一种专门用于存储和检索庞大信息网的存储引擎,它能够高效地将数据存储为点和边,并允许对这些点边结构进行高性能的检索和查询。我们也可以为这些点和边添加属性。图数据库几乎适用于存储所有领域的数据。因为在几乎所有领域中,事物之间都是由某种

2023-03-03 16:54:22 474

原创 Flink+MapState+Ontimer+Enum+Flink去重综合应用

Flink+MapState+Ontimer+Enum+Flink去重综合应用

2023-02-24 09:55:42 515

原创 Kafka面试

图中有两个topic,topic 0有两个partition,topic 1有一个partition,三副本备份。所以如果在消息已经被写入 Leader 分片,但是还未同步到 Follower 节点,此时Leader 分片所在服务器宕机了,那么这条消息也就丢失了,无法被消费到。follower再次同步leader,leader的RemoteLEO更新为1,更新HW=Math.max(0, min(1))=1, follower收到leader的HW=1,更新HW = Math.min(1, 1) = 1。

2023-02-10 09:43:02 536

PPT模版,实现轮播效果图

如何让你的PPT跟美观,通过轮播模版实现,让领导耳目一新

2024-12-12

spring boot 搭建的基本情况

spring boot 搭建的基本情况

2024-07-11

阿里云Blink DataStream开发

阿里云Blink DataStream开发,集成datahub,通过blink 获取datahub相关数据,将数据进行转化成对象,由于实时数据是binlog日志,所以对数据进行过滤,数据输出时需要将对象转化成json对象提供给下游,所以集成了fastjson,此依赖打包不需要,并自定义datahubsink,将数据回写datahub,datahub做订阅,供下游消费,并进行定制化的筛选触达等工作。StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); env.enableCheckpointing(3600000L); // env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE); //

2023-02-21

blink_udx_3x-master.zip

blink_udx_3x-master

2021-12-10

datahub-demo-master.zip

datahub-demo-master

2021-12-10

alibaba-flink-connectors-flink-1.5.2-compatible.zip

alibaba-flink-connectors-flink-1.5.2-compatible

2021-12-10

TimestampsFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

PageFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

ColumnPrefixFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

PreFixFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

FamilyFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

FilterOfFilterList.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

KafkaToA_calc_day_power.java

flink连接kafka,消费数据存入oracle数据库,以及增删改查操作

2019-10-14

A_calc_day_powerSink.java

自定义oracle sink,是实现flink消费数据存入kafka的类

2019-10-14

RowFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

RowFilterWithRegex.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

ValueFilterQuery.java

ilter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端 •过滤器是在HBase服务器端上执行判断操作 •过滤器可以应用到行键(RowFilter),列限定符(QualifierFilter)或者数据值(ValueFilter) •过滤器允许对数据分页处理(PageFilter),限制扫描器返回行数 •FilterList可以组合使用多个Filter

2019-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除