- 博客(148)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 JWT权限认证快速入门
pom.xml引入起步依赖--java jwt坐标-->编写工具类JwtUtil//接收业务数据,生成token并返回//接收token,验证token,并返回业务数据.build().asMap();单元测试类JwtTest// 生成加密后的token@Testclaims.put("username", "张三");// 生成jwt代码.withClaim("user", claims) // 添加载荷。
2026-01-01 22:08:12
202
原创 Doris2.x连载文章(4)
同步物化视图是将预先计算(根据定义好的 SELECT 语句)的数据集,存储在 Doris 中的一个特殊的表。Doris 会自动维护同步物化视图的数据,无论是新增数据还是删除数据,都能保证基表(Base Table)和物化视图表的数据同步更新并保持一致,只有同步完成后,相关命令才会结束,无需任何额外的人工维护成本。查询时,Doris 会自动匹配到最优的物化视图,并直接从物化视图中读取数据。物化视图作为一种高效的解决方案,兼具了视图的灵活性和物理表的高性能优势。
2025-12-22 22:48:48
1058
原创 Doris2.x连载文章(3)
- 创建一个名为 func,参数为 INT, INT 的别名函数,实际指向的表达式为 abs(foo + bar);-- 创建一个名为 func,参数为 DATETIMEV2(3), INT 的别名函数,实际指向的表达式为 date_trunc(days_sub(foo, bar), 'day')步骤:和 hive 差不多先写代码,打成 jar,编写一个函数,指向 jar 包以及类的全路径。
2025-12-22 08:38:04
740
原创 Doris2.x连载文章(2)
最后一个列随意指定个名称占位即可。user_id=1001 TO_BITMAP(1001) --> 下标 10 --> [0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0]user_id=1001 TO_BITMAP(1001) --> 下标 10 -->[0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0]user_id=1002 TO_BITMAP(1002) --> 下标 11 -->[0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0]
2025-12-21 22:16:38
654
原创 Doris2.x博客连载(1)
Doris 2.1.10 版本 存算一体架构 (不需要依赖任何的别的技术)Doris3 存算分离 算(doris 的计算引擎) 存(可以使用第三方比如 hdfs s3 的)也当然支持存算一体Doris4 假如了 AI 功能1.1 Doris 概述Apache Doris 是一款基于MPP架构的高性能、实时分析型数据库。它以高效、简单和统一的特性著称,能够在亚秒级的时间内返回海量数据的查询结果。Doris 既能支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
2025-12-21 22:14:18
1082
原创 大数据项目阿里云抢占式服务器
获取公网 IP,通过 finalshell 连接。输入公网 IP 和密码,连接成功!找一个 2 核 8G 的配置。不足 100 元,需要充值。点击控制台,跳转到实例界面。百度中输入我的 IP。可以获取 IP 地址。
2025-12-14 20:47:20
286
原创 FlinkSQL一篇文档讲清楚
同样还是用户的一组点击事件,我们可以查询出某个用户(例如Alice)点击的url列表,也可以统计出每个用户累计的点击次数,这可以用两句SQL来分别实现。由于流中的数据本身就是定义好的POJO类型WaterSensor,所以我们将流转换成表之后,每一行数据就对应着一个WaterSensor,而表中的列名就对应着WaterSensor中的属性。在代码上,输出一张表最直接的方法,就是调用Table的方法executeInsert()方法将一个 Table写入到注册过的表中,方法传入的参数就是注册的表名。
2025-12-09 23:08:31
978
原创 redis8.0集群搭建(三主三从)
集群:多个节点(服务器)组合成了一个共同的平台,对外提供相同的服务。--redis集群之前的redis主从复制,不算是集群。
2025-12-08 15:38:45
806
原创 Redis8.0哨兵模式搭建
如果是哨兵模式,jedis代码做稍微的调整,当然以前的也可以使用(但是假如主节点发生了变化,代码会连接不上)。解决的问题是,主从模式下,master节点挂掉以后,从节点无法自动升级为主节点的问题。哨兵模式解决的是:主从模式下主节点挂掉后从节点无法主动成为主节点的问题。哨兵模式是基于主从复制的,假如你还没有搭建主从模式,请移步到。另一个sentinel3.conf 修改为 26381 .将sentinel2.conf 端口修改为 26380。关于配置文件中,正式环境修改一下,咱们这里就不修改了。
2025-12-08 15:35:29
449
原创 redis8.0快速搭建主从复制
mysql是否可以主从复制?在公司里面,至少也得有两台mysql服务器(一主一从,读写分离,也可以实现数据的备份)redis也是可以实现主从复制的,好处有两个:1)数据同步,达到备份的效果 2)读写分离,减轻主节点的压力。验证主节点挂了,从节点顶上去。
2025-12-05 15:43:31
309
原创 FlinkCDC极速入门,一篇文章就够啦
CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC就是监听数据库的变化,有任何风吹草动,直接获取到即可。topicafterop目标:将上面的 binlog 的 java 对象SourceRecord,提取有用的信息,封装成一个 json 字符串打印出来。
2025-12-03 15:38:58
1571
原创 Flink doesn‘t support ENFORCED mode for PRIMARY KEY constraint
id INT NOT NULL primary key 修改为 id INT NOT NULL PRIMARY KEY NOT ENFORCED。
2025-12-03 15:33:15
232
原创 java.lang.NoSuchMethodError: org.apache.commons.cli.CommandLine.hasOption(Lorg/apache/commons/cli/Op
今天在进行checkpoint的时候,编写代码没有问题,将代码上传至linux集群,然后运行flink任务没问题,但是带上checkpoint检查点运行就报如上问题。将本地的 windows 上的 common-cli 拷贝到服务器上。flink 集群不需要重启,直接就起作用了。答案是:common-cli版本冲突。
2025-12-02 09:12:22
174
原创 Windows版本的kafka的搭建与使用
在这个目录下:D:\tools\kafka_2.13-3.8.1\bin\windows。可以编写一个 windows 版本的 shell 脚本,点击一下,直接启动。可以创建 topic,并且收发消息进行测试,发现非常快速,测试完成。接着在桌面上点击这个 bat 文件即可。重命名 zoo.cfg。
2025-12-01 14:32:24
562
1
原创 Caused by: java.lang.NullPointerException: No key set. This method should not be called outside of a
方法中,Flink 运行时环境可能已经无法确定具体的 key,因此调用。但我 map 的前面确实使用的是 keyby 操作呀。在进行flink中状态测试的是时候,报以上问题。检查你的代码逻辑,确保。操作后的处理函数中被调用。
2025-12-01 12:02:56
290
原创 eventTime+watermarker+allowedLateness到底窗口关闭时间是什么?
此时触发了一个区间的运行 【2025-11-28 12:18:55->2025-11-28 12:19:00) ,我们不关系,而关系的是【2025-11-28 12:18:50->2025-11-28 12:18:55) 有没有关闭?得到了一个结论: 水印时间 (12:18:58)>= 区间结束时间 就会触发该区间的计算 【2025-11-28 12:18:50->2025-11-28 12:18:55)触发条件不是当前的时间-3 ,而是 最大的那个时间 -3 ,以前放的最大的事件时间是12:18:58。
2025-11-28 15:58:10
295
2
原创 使用datax将mysql数据抽取到hive分区表无数据
今天遇到一个问题,使用datax将mysql数据抽取到hive的分区表中,抽取完后没有数据,也不报错。使用datax抽取数据到hdfs(其实就是hive)导入之后,假如查询没有数据,使用修复语句修复这个表。具体是这样的,先常见ods层的表。
2025-11-24 21:33:29
246
原创 datagrip中执行sparksql插入语句报:java.io.IOException: Filesystem closed
【代码】datagrip中执行sparksql插入语句报:java.io.IOException: Filesystem closed。
2025-11-18 21:19:10
131
原创 geohash入门指南
在地球经纬度范围内,不断通过二分来划分矩形范围,通过观察gps坐标点所落的范围,来反复生成0/1二进制码。Geohash编码是一种地理位置编码技术,它可将一个gps坐标(含经、纬度)点,转化为一个字符串;gps坐标 转码成 geohash编码,这个算法不需要自己手写,有现成的工具包。通过编码后得到的字符串,表达的是:包含被编码gps坐标点的一个矩形范围;字符串长度越长,表达的精度越高,矩形范围越小,越逼近原gps坐标点;相反,长度越短,表达的精度越低,矩形范围越大;GEOHASH码的精度。
2025-11-15 22:27:22
242
原创 flume抽取kafka数据到kafka,数据无法从topicA抽取到topicB
也就是说如果想把结果发送topicB, 可以在event的header中添加 topic=topicB,
2025-11-15 22:22:02
527
原创 spark on hive中,spark远程连接创建数据库路径错误问题的解决方案
首先启动 sparksql 的远程服务:start-thriftserver 服务。使用datagrip 重新连接一下,记得刷新一下连接。修改spark下的hive-site.xml。
2025-11-12 21:09:49
202
原创 sparksql远程服务thriftserver.sh启停脚本
最近做项目的时候,经常会开启和关闭spark的远程服务,thriftserver,其实这个服务和hive的hiveserver2服务很像,不妨照着试着修改一下吧。在/usr/local/bin 下创建一个脚本:spark-service-manager.sh。
2025-11-12 21:08:02
312
原创 sqoop从hive导出mysql常见错误汇总
选择 sqoop 的原因是,datax 不能直接将 mysql 的数据导入 hive,需要提前创建表,然后将数据导入表对应的 hdfs 上。假如我导入表的时候,表中的一个日期字段是 0000-00-00 00:00:00 就会报错。比如 这个表 user_quota、dict_provinces。
2025-10-25 08:52:20
248
原创 商业银行中各个主题可视化展示
某某银行项目是一个以面向销售交易、财务、风险监控等分析主题的数据仓储项目,数据来源于柜面业务、贷款系统等各个系统以及各业务负责人员的手工导入,通过这些源数据加工汇总成分析数据,并以仪表盘、柱状图、折线图、报表等形式为甲方管理层分析决策提供数据指标方面的支持,直观的监测企业运营情况,并对异常关键指标预警和挖掘分析。
2025-10-25 08:43:01
784
原创 spark on hive 还是 hive on spark?
我们都知道,hive默认的计算引擎是mr,但是mr计算依赖于磁盘,导致计算非常缓慢,开启本地模式会稍微快一点,但是治标不治本,于是有些公司就将计算引擎切换成tez或者spark。spark作为目前主流的离线计算引擎,非常的方便,所以很多企业都想直接将计算引擎换成spark,但目前hive和spark结合有两种方式Spark On Hive ,还有一种Hive On Spark,到底应该怎么选择呢?
2025-10-11 15:31:34
391
原创 kettle获取昨日时间-方案二(java代码)
通过编写java代码,传入当前日期,然后根据java API,获取前一天的日期进行返回。一个输入参数,一个输出参数,给定一个日期,获取这个日期的前一天的日期。操作步骤跟之前一样,数据名称必须是 dt, 值是 系统时间(可变)修改获取变量,因为我的sql语句中有两个?在作业中,拉取【获取变量】,输入是表输入,输出是插入更新。创建一个作业--设置变量,操作跟之前一样。测试一下,从java代码中点击【测试类】点击获取变量,输入yesterday。记得先创建表,执行sql语句。执行任务,查看结果。
2025-10-09 20:52:21
363
原创 kettle如何获取昨天的日期--方案一(正则表达式)
摘要:本文介绍了在SQL中获取前一天日期的两种方法:使用date_sub函数和adddate函数,并演示了如何通过正则表达式从时间字符串中提取年月日数据。重点展示了如何将这些技术应用于实际业务场景,通过设置变量和连接作业,构建一个完整的ETL流程,最终实现使用变量查询前一天订单数据并更新数据库的操作。整个流程分为两步:先设置变量,再在SQL查询中使用该变量获取前一天的数据进行处理。
2025-10-09 20:50:31
490
原创 什么是B域?
B域(业务域) 是企业中所有面向市场、客户、产品和收入的流程、数据和信息系统的总称。它是企业直接进行商业活动和实现价值创造的核心领域。当你听到“B域数据”时,它通常指的是客户数据、交易数据、产品数据等直接用于商业分析和决策的数据,与“O域”的网络日志、性能数据等形成鲜明对比。
2025-09-23 21:44:09
382
原创 YARN 的 ResourceManager 失败后,如何恢复任务?
当ResourceManager(RM)失败后,任务的恢复并不像“重启任务”那么简单,因为它是一个有状态的核心调度器。YARN通过 机制来解决这个问题。其核心思想是:下面是ResourceManager高可用(HA)架构与故障恢复流程的详细示意图:YARN ResourceManager失败后的恢复,并非直接“恢复任务”,而是通过一套::Active RM持续将状态写入。: 监控Active状态并协助Standby RM选举。:新的Active RM从,重建内存状态。
2025-09-18 16:27:36
1048
原创 zk选举ZAB协议和FLE算法
其实不管是zxid也好,server_id也好,每个节点都是先投自己一票,然后进行广播,如果接受到别的服务器发过来的值,比自己的打,会重新投票给对方或者自己。所以总结来讲,就是先比较EPOCH ,如果相同,比较zxid,如果还一样,比较Server_ID,就是myid文件中的那个数字。S1 收到 S2 的投票 (2, 120),发现 120 > 100,于是 S1 更新投票,改投 S2 (2, 120)S1 的 zxid 是 100,S2 的 zxid 是 120,S3 的 zxid 是 110。
2025-09-18 12:30:47
552
原创 DataGrip插件--BigData Tools
你是否有这样的烦恼,使用DataGrip操作hive的时候,有时候想看看hive在hdfs以及yarn上的情况,这个时候,就需要在浏览器访问,切来切去非常的不方便,这个时候我们可以在DataGrip中安装一个插件即可--BigData Tools。可以通过 datagrip 查看 hdfs 以及 yarn 的内容。当然还可以连接 hive、spark 等多种大数据组件。记得重启 Datagrip。第二步:连接 hdfs。第二步:连接 yarn。
2025-09-18 08:29:12
323
原创 hdfs 的纠删码技术ErasureCoding
一句话概括:纠删码(EC)是一种比传统多副本复制更高效的数据容错方法。它通过将数据块切割、编码,生成奇偶校验块,并将所有这些块分散存储在不同的节点上。在发生故障时,即使丢失部分块,也可以通过数学计算完整地恢复出原始数据。传统副本复制(Replication)•工作原理:这是 HDFS 默认的容错机制。比如,你有一个 128MB 的数据块,系统会简单地将其复制 3 份(默认副本数),然后存储到 3 个不同的数据节点上。•优点:实现简单,读取性能高(可以从多个副本读取)。•缺点:。
2025-09-17 08:46:15
704
原创 MapReduce中一个插件引发的系列问题
使用这个插件的时候,如果有需要执行的主函数,那么在mainClass中指定,否则报mainClass相关的错误。原因是mainClass中已经指定了入口是哪个类,命令中就不要再次指定了。
2025-09-15 16:54:07
218
原创 BOSS一键投递插件
然后,将下载的zip安装包拖拽带这个页面即可。下载完之后,不要解压,打开EDGE浏览器,点击插件页面。界面中,出现这个就说明成功了。
2025-08-21 16:10:45
626
原创 使用java代码操作doris数据库
Arrow Flight SQL 还提供了通用的 JDBC 驱动,支持与同样遵循 Arrow Flight SQL 协议的数据库无缝交互。除了使用 JDBC,与 Python 类似,Java 也可以创建 Driver 读取 Doris 并返回 Arrow 格式的数据,下面分别是使用 AdbcDriver 和 JdbcDriver 连接 Doris Arrow Flight Server。注意:需要将 pom 文件中的 mysql 的驱动包注释或者删除,否则报错!
2025-08-14 08:49:44
968
大型语言模型问题求解中的思维树方法论
2025-03-11
基于自注意力机制的序列转换模型-Transformer的提出及其应用
2025-03-11
美国劳动力市场中大型语言模型的影响潜力:早期评估及其广泛应用前景
2025-03-11
自然语言处理领域的深度双向变压器预训练模型BERT及其应用
2025-03-11
基于交互式可视化的Transformer模型注意机制探索工具-DODRIO及其应用
2025-03-11
自我一致性提升自然语言模型链式思维推理能力的研究与应用
2025-03-11
深度解析注意力模型在神经网络中的发展与应用及其对解释性的促进
2025-03-11
深度解析GPT-4架构与基础设施:模型参数超1.8万亿的秘密
2025-03-11
java程序员上班那些事
2010-03-11
关于手机开发的一些想法
2011-01-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅