xingyuan8-CSDN博客

原创使用SparkSql进行表的分析与统计

背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetal...

2020-01-02 11:17:17 3013

对应上面的自动方法，可以把该电脑中的插件（解压安装后）复制到离线的电脑中，但这个不一定成功，可能还是会有兼容性问题。在该vscode中搜索对应的插件，能很直观地得到最兼容的版本号（v2023.3.1000851011）这个网址，然后加上了一些自动化脚本，如果是单次解决问题，可以直接去拼接这个URL即可。本方法需要一台有网络的电脑，需要在该电脑上安装同版本的vscode。本文由博客一文多发平台。所有的操作都是为了得到。

2024-04-12 14:56:03 549

原创利用动态资源分配优化Spark应用资源利用率

背景在某地市开展项目的时候，发现数据采集，数据探索，预处理，数据统计，训练预测都需要很多资源，现场资源不够用。目前该项目的资源3台旧的服务器，每台的资源内存为128G，cores 为24 （core可暂时忽略，以下仅考虑内存即可）。案例分析我们先对任务分别分析，然后分类。数据采集基于DC，接的是Kafka的源，属于流式，常驻任务。kafka来新数据时才需要资源，空闲时可释放。目前占用...

2020-03-04 13:41:33 1320

原创一条Sql的Spark之旅

背景 SQL作为一门标准的、通用的、简单的DSL，在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位，而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此SparkSQL在大数据分析中的地位不言而喻。本文将通过分析一条SQL在Spark中的解析执行过程来梳理SparkSQL执行的一个流程。案例分析代码val spark...

2020-02-25 14:36:24 819

一键更改ip

下载文件后，用记事本编辑，将其中的ip，网关及域名改成你所需要的，保存后，双击运行该文件即可更改您指定的ip

2012-02-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

xingyuan8的专栏

原创使用SparkSql进行表的分析与统计

原创快速下载指定版本的vscode插件

原创利用动态资源分配优化Spark应用资源利用率

原创一条Sql的Spark之旅

一键更改ip

空空如也

原创 使用SparkSql进行表的分析与统计

原创 快速下载指定版本的vscode插件

原创 利用动态资源分配优化Spark应用资源利用率

原创 一条Sql的Spark之旅

一键更改ip

空空如也

原创使用SparkSql进行表的分析与统计

原创快速下载指定版本的vscode插件

原创利用动态资源分配优化Spark应用资源利用率

原创一条Sql的Spark之旅