- 博客(4)
- 资源 (1)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 使用SparkSql进行表的分析与统计
背景 我们的数据挖掘平台对数据统计有比较迫切的需求,而Spark本身对数据统计已经做了一些工作,希望梳理一下Spark已经支持的数据统计功能,后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据,此处格式为iris.data格式,先将data后缀改为csv后缀(不影响使用,只是为了保证后续操作不需要修改)。数据格式如下:SepalLengthSepalWidthPetal...
2020-01-02 11:17:17
3013
原创 快速下载指定版本的vscode插件
对应上面的自动方法,可以把该电脑中的插件(解压安装后)复制到离线的电脑中,但这个不一定成功,可能还是会有兼容性问题。在该vscode中搜索对应的插件,能很直观地得到最兼容的版本号(v2023.3.1000851011)这个网址,然后加上了一些自动化脚本,如果是单次解决问题,可以直接去拼接这个URL即可。本方法需要一台有网络的电脑,需要在该电脑上安装同版本的vscode。本文由博客一文多发平台。所有的操作都是为了得到。
2024-04-12 14:56:03
549
原创 利用动态资源分配优化Spark应用资源利用率
背景在某地市开展项目的时候,发现数据采集,数据探索,预处理,数据统计,训练预测都需要很多资源,现场资源不够用。目前该项目的资源3台旧的服务器,每台的资源 内存为128G,cores 为24 (core可暂时忽略,以下仅考虑内存即可) 。案例分析我们先对任务分别分析,然后分类。数据采集基于DC,接的是Kafka的源,属于流式,常驻任务。kafka来新数据时才需要资源,空闲时可释放。目前占用...
2020-03-04 13:41:33
1320
原创 一条Sql的Spark之旅
背景 SQL作为一门标准的、通用的、简单的DSL,在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位,而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此SparkSQL在大数据分析中的地位不言而喻。本文将通过分析一条SQL在Spark中的解析执行过程来梳理SparkSQL执行的一个流程。案例分析代码val spark...
2020-02-25 14:36:24
819
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人