spark中的dataframe与sparksql的实例

本文中的project是做了两方面的工作,首先是读取netcdf文件,并将其转成.CSV格式的数据(此处省略)。下面主要介绍的是如何利用scala开发spark程序,实现sparksql数据表的读取。
下面附上工程中所使用的.csv文件如下:
1.NELE_POINT.csv
这里写图片描述
2.NODE.csv
这里写图片描述
假设你已经下载或者配置好scala,在IDEA下新建一个scala工程,并将spark的安装目录下的lib添加到library中:这里写图片描述
在工程中新建scala object,如下:
这里写图片描述
代码如下:(这里建立了两个RDD)
这里写图片描述
这里写图片描述
运行结果如下:
表1:这里写图片描述
表2:这里写图片描述

备注:
如果想提交到集群上,一方面是要改setmaster(“spark://ip:port”)还要设置jars(”.jar”),才能提交到集群上,同时要求你的scala版本与集群上的一致才可以。
如果你不嫌麻烦,那就打成jar包,上传的集群上,用spark-submit来提交job也可以。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值