自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 使用SparkSql进行表的分析与统计

背景​ 我们的数据挖掘平台对数据统计有比较迫切的需求,而Spark本身对数据统计已经做了一些工作,希望梳理一下Spark已经支持的数据统计功能,后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据,此处格式为iris.data格式,先将data后缀改为csv后缀(不影响使用,只是为了保证后续操作不需要修改)。数据格式如下:SepalLengthSepalWidthPetal...

2020-01-02 11:17:17 3013

原创 快速下载指定版本的vscode插件

对应上面的自动方法,可以把该电脑中的插件(解压安装后)复制到离线的电脑中,但这个不一定成功,可能还是会有兼容性问题。在该vscode中搜索对应的插件,能很直观地得到最兼容的版本号(v2023.3.1000851011)这个网址,然后加上了一些自动化脚本,如果是单次解决问题,可以直接去拼接这个URL即可。本方法需要一台有网络的电脑,需要在该电脑上安装同版本的vscode。本文由博客一文多发平台。所有的操作都是为了得到。

2024-04-12 14:56:03 549

原创 利用动态资源分配优化Spark应用资源利用率

背景在某地市开展项目的时候,发现数据采集,数据探索,预处理,数据统计,训练预测都需要很多资源,现场资源不够用。目前该项目的资源3台旧的服务器,每台的资源 内存为128G,cores 为24 (core可暂时忽略,以下仅考虑内存即可) 。案例分析我们先对任务分别分析,然后分类。数据采集基于DC,接的是Kafka的源,属于流式,常驻任务。kafka来新数据时才需要资源,空闲时可释放。目前占用...

2020-03-04 13:41:33 1320

原创 一条Sql的Spark之旅

背景​ SQL作为一门标准的、通用的、简单的DSL,在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位,而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此SparkSQL在大数据分析中的地位不言而喻。本文将通过分析一条SQL在Spark中的解析执行过程来梳理SparkSQL执行的一个流程。案例分析代码val spark...

2020-02-25 14:36:24 819

一键更改ip

下载文件后,用记事本编辑,将其中的ip,网关及域名改成你所需要的,保存后,双击运行该文件即可更改您指定的ip

2012-02-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除