- 博客(136)
- 资源 (1)
- 收藏
- 关注
原创 SparkSQL性能优化实践指南
本文深入探讨了SparkSQL的性能优化实践,从技术原理到实际应用。首先解析了SparkSQL的Catalyst优化器架构和查询执行流程,然后重点分析了常见性能瓶颈及优化方法,包括数据倾斜处理、内存管理和查询优化技巧。文章通过具体代码示例展示了大规模数据聚合和复杂Join的优化方案,并提供了开发阶段和运行时优化的最佳实践建议。最后强调SparkSQL性能优化需要从数据组织、查询编写、资源配置和系统监控等多维度综合考虑,为大数据处理提供了实用的性能提升指南。
2025-08-17 22:28:26
510
1
原创 SpringBoot实现MCP
本文介绍了如何在SpringBoot项目中实现MCP(模型调用协议)技术,通过具体示例展示了MCP的应用。首先配置了SpringBoot项目并添加MCP相关依赖,然后定义了一个查询MySQL数据库的服务类,将其注册为MCP工具。通过打包部署和配置MCP规范文件,成功将服务集成到大模型中。测试表明,MCP能够正确调用自定义服务查询数据库和返回特定结果。文章强调实践的重要性,建议通过实际项目来加深对MCP的理解,同时指出大模型技术的学习成本低,易于与现有技术栈集成。完整代码可通过留言获取。
2025-07-09 21:48:34
956
原创 大模型MCP技术之一句话安装Hadoop
1.模型安装的时候会帮忙安装依赖的,比如JDK的安装,会自己检查,这里建议提前做好安装工作,后面就会专注安装 Hadoop。2.安装Hadoop的时候会自动帮忙去互联网下载安装包,但是安装默认都是国外网站,会超时的,这个时候会换个地址重试,重试太多的话就信息混乱了,如果网络环境不好可以提前准备好安装包。后面修正的过程其实是一个演示效果,期间因为一次性要做的事情太多,一度导致思考几乎停住了。1.尽量每一步任务内容别太重,否则验证复杂度太高,导致出现乱入了。
2025-07-01 23:46:45
863
原创 大模型技术MYSQL-MCP体验
模型上下文协议(Model Context Protocol,MCP),是由Anthropic推出的开源协议,旨在实现大语言模型与外部数据源和工具的集成,用来在大模型和数据源之间建立安全双向的连接。想想我们年初的目标,本着是让大模型帮忙打工的,可是玩来玩去都是在那里聊天,一段时间就丢一边了。有了MCP就不一样了,通过MCP,不光是要大模型写代码,还要直接到数据库里面跑起来才算,跑出问题了还要修正,这样才算是真正帮我们干活嘛~
2025-06-29 08:10:49
501
原创 大模型Text2SQL之在CentOS上使用yum安装与使用MySQL
在CentOS容器环境中安装MySQL的实践记录:使用OrbStack创建容器后,通过Yum安装MySQL 5.7,发现初始密码为空(日志显示--initialize-insecure选项启用)。成功登录后,采用MySQL 8.0的安全规范,先创建'root'@'%'用户并设置密码,再授予全局权限。整个过程涉及服务管理命令(启动/停止/自启)、密码初始化查询及新版MySQL的用户权限设置方法,解决了在受限环境下部署MySQL的技术问题。(149字)
2025-06-20 22:12:16
359
原创 大数据治理:从计算优化到组织效能提升的全面解析
在数字化浪潮汹涌的当下,数据已然成为企业的核心资产。大数据治理作为释放数据价值的关键手段,其重要性不言而喻。今天,我们将从计算优化、治理、数据链路以及组织效能这几个关键维度,深入剖析大数据治理。
2025-02-07 12:47:43
924
原创 一文带你了解Spark4新特性,开启大数据处理新篇章
在大数据处理的广袤天地中,Apache Spark 始终是熠熠生辉的存在,宛如一颗璀璨的明星框架,吸引着无数开发者与数据分析师的目光。技术的车轮滚滚向前,Spark 4.0 在万众瞩目中荣耀登场,携带着一系列令人热血沸腾的新特性,如同为大数据领域开启了一扇通往新世界的大门,带来了前所未有的变革。今天,就让我们一同踏上这场探索之旅,深入剖析 Spark 4.0 的全新特性,探寻它们如何为大数据处理的版图添上浓墨重彩的一笔。
2025-02-05 23:46:33
2228
原创 大模型时代,如何做好技术储备开启求职之路
在科技飞速发展的当下,DeepSeek 的爆火成为了人工智能领域的一个现象级事件。短短数月间,DeepSeek 的用户数量呈指数级增长,广泛应用于智能写作、智能客服、智能翻译等多个领域,其精准高效的语言处理能力和强大的知识储备,让人们真切感受到了大模型技术的魅力与潜力。这一成功案例不仅是 DeepSeek 自身技术实力的彰显,更标志着大模型时代已然全面来临。“周虽旧邦,其命维新。” 科技浪潮滚滚向前,大模型时代的来临,恰似一场波澜壮阔的变革,彻底重塑了科技发展的格局,为我们带来前所未有的机遇与挑战。
2025-02-05 23:36:55
1011
原创 大模型技术对大数据生态链的全面革新
在数字化浪潮汹涌澎湃的当下,大数据和人工智能技术已成为推动各行业发展的关键力量。其中,大模型技术的崛起,正深刻地改变着大数据生态链的格局,为数据的处理、分析与应用带来了前所未有的变革。今天,就让我们一同深入探讨大模型技术对大数据生态链的多维度影响,并结合实际案例展开分析。
2025-02-05 23:18:12
1010
原创 一文读懂金融行业数仓建模
在金融行业加速数字化转型的当下,数据已然成为驱动业务创新与发展的关键生产要素。而数据仓库建模作为高效管理与运用这些数据的核心技术,犹如为金融机构筑牢数据大厦的基石,稳稳支撑起各类数据分析与决策应用,在金融领域的数字化进程中发挥着举足轻重的作用。今天,我们就一同深入探索金融行业数仓建模的关键要点,并结合实际案例展开详细剖析。
2025-02-05 23:07:02
1486
原创 当大模型遇上Spark:解锁大数据处理新姿势
开发专用模型和算法,针对特定领域特点,结合 Spark 计算能力开发专用模型和算法,在金融领域开发基于 Spark 的金融风险预测模型,利用 Spark 处理金融大数据,结合金融领域知识和算法提高预测准确性;医疗机构在日常诊疗过程中,积累了大量医疗影像数据,如 CT、MRI、X 光等,以及患者病历数据,包括症状描述、诊断结果、治疗方案等。将这些数据进行整合,存储到分布式存储系统中,利用 Spark 的分布式计算能力,对医疗影像数据进行预处理,如降噪、增强、分割等操作,提高影像质量,便于后续分析。
2025-02-05 22:18:52
1838
原创 解锁Hudi+Spark:大数据处理的超强组合拳
在大数据领域,数据的存储和处理是两大核心任务。Hudi(Hadoop Upserts Delete and Incremental)作为一种新兴的数据湖存储框架,正逐渐崭露头角,它为大规模数据集提供了高效的增量数据处理和实时数据更新能力。而 Spark,作为大数据处理领域的明星框架,以其快速的内存计算、丰富的 API 和强大的分布式处理能力,在批处理、流处理以及机器学习等多个场景中广泛应用。
2025-02-05 22:12:18
1084
原创 突破解决brew install无法访问国内网络问题
使用mac的同学都会经常使用brew 工具安装,我本来是需要安装一下ffmpeg来着,我就执行以下命令这种情况还是好的,是安装慢,但是啊,好不容易下载完成后面伴有下面这种提示安装失败,死活也安装不了。。。
2024-10-14 22:45:06
2282
原创 数学符号练习篇-函数
量和量之间的关系:如AπR2A=πR^2AπR2yfxy=f(x)yfx中fff为函数,xxx为自变量,yyy因变量出函数在x0x_0x0处取得的函数值y0y∣xx0fx0y0y∣xx0fx0ygxy=g(x)ygxyφxy=φ(x)yφxyψxy=ψ(x)yψx。
2024-09-27 06:47:52
865
原创 利用VSCode正则方式捕获组替换,编码效率一飞冲天
我们经常需构造一些数据变成SQL或者JAVA代码,但是数据内容其实是从excel或者别的地方复制过来的,如下的字符串我们在SQL中需要变成或者在JAVA中变成其实规律很直接,我们就是需要在每一行的前后追加一下单引号/双引号再补充一个,号就行。
2024-08-25 18:09:11
445
原创 Spark 3.5.1 升级 Java 17 异常 cannot access class sun.nio.ch.DirectBuffer
使用Spark 3.5.1 升级到Java17的时候会有一个异常,异常如下。
2024-06-02 10:53:25
3719
3
原创 全民上手大模型--ollama+langchain+通义千问零费用java+python跑通本机大模型
写本篇文章是因为我经历过了各种付费+测试之后很艰难想入手大模型,国内的同学学技术还是太困难了,但是看到市面上各种火爆,实在有按捺不住想体验,终于迎来了一个契机。在此之前,应该大家都了解OpenAPI,确实强大,但是国内用户来说,有以下问题:一、网络不通,这里还不是简单的翻墙的问题,是他的网站都不对中国大陆开放,政治因素就不谈了二、贵这玩意其实是按调用次数收费的,厉害点的功能其实都要收费,还是美元三、其实中文方面还是没有那么强了。
2024-04-25 23:06:56
5130
8
原创 Flink程序员开发利器本地化WebUI生成
在flink程序开发或者调试过程中,每次部署到集群上都需要不断打包部署,其实是比较麻烦的事情,其实flink一直就提供了一种比较好的方式使得开发同学不用部署就可以观察到flink执行情况。
2024-03-17 22:07:17
1063
原创 在docker中玩flink时候记录一些组合命令
玩docker的时候记录一些组合命令,一方面是可以直接拿上来使用,还有的话也可以拿过来改改,主要是我自己有这种经历,过一阵子我自己也忘,与其去搜人家的博客还不如自己记录一把。好了,没啥所谓的规律性,就是一些日常经常使用的命令组合。
2024-03-04 22:57:39
364
原创 使用Docker快速部署Flink分布式集群
本文其实是介绍了最长见的两种使用docker的场景,一个是自己开发的程序如何用docker跑起来,第二是使用现成的容器更快速让我们入门。这两种方式在以后会经常碰到。
2024-03-03 09:38:18
3204
原创 failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code
【代码】failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code。
2024-03-02 22:43:46
935
原创 VSCode将某个字符替换为换行符并换行显示
快捷键其实想 option+command+f ,但是我每次都记不住,大家可以直接在编辑栏找到replace的地方。选择之后记得写着*的那里其实就是正则模式,否则的话会替换成字符串的\n。我的需求是一个一行的数据,用逗号分开,我希望竖着看有规律点,类似这样。不想每次去查了,我自己写博客记录一下~~~
2024-02-22 21:10:40
4000
原创 mac构建Docker镜像报错failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpec
【代码】mac构建Docker镜像报错failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpec。
2024-02-08 10:17:35
441
原创 mac docker 宿主机和容器间网络打通
是这样,笔者最近满怀欣喜入手Docker,看着各种文章命令都是不断点头称道:“嗯嗯,不错不错”,在接下来终于准备大干一场的时候碰壁了,主要情况是说在Mac中跑了第一把的时候发现碰到,虚拟机和宿主机居然是不通的,当然也找了一下资料说linux才是天然支持docker滴,底层都有cgroup,clx吧啦吧啦,mac,windows这种其实是底层干了波虚拟机,然后要转发啥的。从我过去多次学习大数据组件入门到放弃的情况来说,网络这种事情要提前解决,不能卡着,否则后面很多破事情。
2024-02-07 10:22:39
1933
原创 大数据技术闲侃之-鹰隼试翼风尘翕张
似乎是需要把一系列串起来,继走出校门、岗位选择之后,现在又开始卷职业规划了,有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头,后续持续很久放在记事本上面吃灰了。这段时间呢,组里有3位刚从校园的同学进来,组里年龄瞬间拉低了一个很大的水平,不管愿不愿意,反正生理年龄上来了一场风暴式的洗牌,主要找工作这个事情上如果相同水平的话,肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。
2023-08-16 13:05:32
430
原创 大数据技术闲侃之岗位选择解惑
写下这篇文章是因为五一节前给群友的承诺,当然按照以往的惯例,也是我背后看到的这个现象,我发现大部分同学在投递岗位的时候都是投递数据分析岗位,其实背后并不是很清楚背后的岗位是做啥的,想想我自己的工作生涯,还是觉得可以写一写。
2023-05-15 22:58:05
464
原创 Chrome版本太旧,无法访问此网站www.google.com 的响应时间过长
Chrome版本太旧,无法访问此网站www.google.com 的响应时间过长,问题解决
2023-04-22 21:37:44
1540
原创 #恭喜闲侃群通过人肉的方式对接了ChatGPT
我们的闲侃群一直很活跃啦,看到大家那么积极讨论,今天群主加一把火,大家的问题一起丢给ChatGPT看看,主要是我看了答案还是很不错的,这不小文章就出来了嘛~
2023-04-20 21:52:12
525
原创 anaconda运行Notebook和jupyter报错resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard)) ValueError
mac anaconda3 File "/Users/zhuxuemin/anaconda3/anaconda3/lib/python3.9/site-packages/notebook/notebookapp.py", line 1704, in init_resources resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard))ValueError: current limit exceeds maximum limit
2023-02-02 23:06:15
1463
2
原创 改良海量数据存储的若干的手段-转变数据垃圾为黄金
直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~在这里插入图片描述一开始数据湖信息在设计时并没有考虑未来的访问和分析,机构会发现这样的数据湖仅仅是数据量大而已,大部分数据并不能真正支持他们的业务
2022-11-18 21:05:17
559
原创 关于技术面试一些有用的经历
其实比较标准的情况就是一个是技术把关,一个是你未来老板,一个是hr,有时候会发现搞个几轮,或者也就两面就通关了,这种情况是这几个角色分到几个人身上,或者就一个人顶了两轮角色的情况,有个需求注意的事情是,这里头其实没有闲人,尤其是针对技术把关的同学,他们在日常的工作中事情也是非常多的,所以内心诉求是期望面试的人就是自己想找的人,至于后面的老板嘛,肯定更加忙的,因为一旦面试不过的话,又要找下一个。还有些情况就是也不写毕业时间,或者模棱两可,因为这个需要判断工作时间的关键因素,后面的工作情况也是一样。...
2022-08-07 08:45:09
290
2
原创 手撕SparkSQL五大JOIN的底层机制
Broadcast hash join (BHJ)Shuffle hash join(SHJ)Shuffle sort merge join (SMJ)Shuffle-and-replicate nested loop join,又称笛卡尔积(Cartesian product join)Broadcast nested loop join (BNLJ)这些机制你真的了解清楚么, 今天对SparkSQL JOIN的机制从原理和源码都深入剖析,不管是做Spark优化,问题排查,都有极大的帮助~~
2022-07-31 14:43:56
2055
原创 大数据技术人员的打怪升级之路
事实上我们一般是把自己说成是技术人员,而在我们的 下游还有一部分也是做数据的,消费我们的数据,我们会把他们才叫做数据人员,在大数据的成长之路上,利用技术手段加持你真正的数据链路,从这个层面来讲探索新的etl pattern,带来新的设计范式,打造行业规范,也是可以星辰大海的一件事情,也就不会觉得数据人这个称呼不大行了!!............
2022-07-21 23:00:55
464
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人