![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
@ni,study
这个作者很懒,什么都没留下…
展开
-
IDEA编写Scala代码时自动显示变量类型
设置方法如下:settins -->Editor–> Code Style --> scala --Type Annotations 勾选框选部分结果如下所示:原创 2020-06-30 20:10:45 · 1140 阅读 · 0 评论 -
RDD常用操作,及结果展示
首先简单介绍一下,HDFS的相关操作:1、在HDFS上创建文件夹hdfs dfs -mkdir /path2、将本地文件拷贝到HDFS上hdfs dfs -copyFromLocal local_file /dstpathhdfs dfs -put local_file /dstpath3、将HDFS上的文件拷贝到本地hdfs dfs -copyToLocal /dstpath local_pathhdfs dfs -get /dstpath l原创 2020-06-17 17:08:38 · 3545 阅读 · 0 评论 -
在spark-shell中wordcount的实现,以及错误的解决!
新建两个文件,输入以下字符,用空格进行分割。首先:启动spark进程:start-all-spark.sh使用:jps 进行查看进程!进入scala界面:spark-shell在scala输入以下代码结果如下:sc.textFile("/opt/bigdata/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)....原创 2020-04-26 17:59:25 · 321 阅读 · 0 评论 -
Spark中,DataFrame的操作实例及展示
1、启动进程启动:hdfs和spark,会看到如下图所示的进程(1)主节点如图所示:(2)从节点如图所示:2、Spark集群的启动浏览器输入 http://10.103.104.101:8080/(2)spark-shell启动3、DataFrame的操作(1) 读取数据val inputpath="hdfs://master:9000/input"var df=s...原创 2020-03-15 21:23:58 · 955 阅读 · 0 评论 -
Spark的安装及配置过程(linux完全分布式)
Spark是一个基于内存的通用并行计算框架,目的是让数据分析更加快速。Spark+Hadoop的组合,才是未来大数据领域最热门的组合,也是最有前景的组合!1.安装spark1.1下载Spark安装包:Download Spark: spark-2.1.1-bin-hadoop2.6.tgz下载地址:http://spark.apache.org/downloads.html1.2解压:...原创 2020-03-15 20:04:23 · 302 阅读 · 0 评论