Spark Shell读取HDFS文件的步骤有哪些？

最新推荐文章于 2024-03-16 11:50:13 发布

让你五行代码

最新推荐文章于 2024-03-16 11:50:13 发布

阅读量1.1k

点赞数

文章标签： spark hdfs 大数据

原文链接：https://www.itheima.com/news/20201221/165607.html

版权

下面通过启动Spark-Shell，并且使用Scala语言开发单词计数的Spark程序，现有文本文件words.txt(读者需要在本地创建文件并上传至指定目录)在HDFS中的/spark/test路径下，且文本内容如下。

hello hadoop
hello spark
hellp itcast

　　如果使用Spark Shell来读取HDFS中的/spark/test/ words.txt文件，具体步骤如下：

　　1.整合Spark与HDFS

　　Spark加载HDFS上的文件，需要修改spark-env.sh配置文件，添加HADOOP_CONF_DIR配置参数，指定Hadoop配置文件的目录，添加配置参数如下。

\#指定HDFS配置文件目录
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop

　　2.启动Hadoop 、Spark服务

　　配置完毕后，启动Hadoop集群服务，并重新启动Spark集群服务，使配置文件生效。

　　3.启动Spark-Shell编写程序

　　启动Spark-Shell交互式界面，执行命令如下。

$ bin/spark-shell --master local[2]

　　执行上述命令，Spark-Shell启动成功后，就会进入如图1所示的程序交互界面。

　　图1 spark-shell模式

　　Spark-Shell本身就是一个Driver，它会初始化一个SparkContext对象为“sc”，用户可以直接调用。下面编写Scala代码实现单词计数，具体代码如下。

scala > sc.textFile("/spark/test/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((itcast,1), (hello,3), (spark,1), (hadoop,1))

　　上述代码中，res0表示返回的结果对象，该对象中是一个Array]类型的集合，(itcast，1)则表示“itcast”单词总计为1个。

　　4.退出Spark-Shell客户端

　　可以使用命令“:quit”退出Spark-Shell，如下所示。

scala > :quit

让你五行代码

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫