Window 上使用 IDEA 编写词频统计的 scala 程序，提交 jar 包到虚拟机上运行

最新推荐文章于 2024-06-11 20:12:19 发布

roadkiller.

最新推荐文章于 2024-06-11 20:12:19 发布

阅读量1k

点赞数 1

分类专栏： Scala

本文链接：https://blog.csdn.net/weixin_43721423/article/details/109732020

版权

Scala 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、安装IDEA

下载地址：https://www.jetbrains.com/idea/download/#section=windows

2、IDEA中Scala插件的安装

安装好IDEA之后，在Setting中添加插件Scala，点击Install即可

还得下载scala包，以后创建工程要用到：

我用的是scala-2.11.12.zip，链接：https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.zip

个人建议把此链接复制，然后迅雷里打开进行下载，会快一点

3、下载几个jar包

ps.我习惯把这些包放到IDEA的plugin目录下，方便以后好添加

安利这个宝藏网址：https://mvnrepository.com/

下面是需要下载的文件。

第零个：hadoop-common-3.1.2.jar

网址：https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-common/3.1.2/

第一个：spark-core_2.11-2.4.4.jar

网址：https://repo1.maven.org/maven2/org/apache/spark/spark-core_2.11/2.4.4/

第二个：jackson-annotations-2.9.10.jar

网址：https://repo1.maven.org/maven2/com/fasterxml/jackson/core/jackson-annotations/2.9.10/

第三个：spark-network-common_2.11-2.4.4.jar

网址：https://repo1.maven.org/maven2/org/apache/spark/spark-network-common_2.12/2.4.4/

第四个：commons-lang3-3.9.jar

网址：https://repo1.maven.org/maven2/org/apache/commons/commons-lang3/3.9/

第五个：spark-unsafe_2.11-2.4.4.jar

网址：https://repo1.maven.org/maven2/org/apache/spark/spark-unsafe_2.12/2.4.4/

第六个：slf4j-api-1.7.29.jar

网址：https://repo1.maven.org/maven2/org/slf4j/slf4j-api/1.7.29/

第七个：slf4j-nop-1.7.29.jar

网址：https://repo1.maven.org/maven2/org/slf4j/slf4j-nop/1.7.29/

安装slf4j-nop-1.7.29.jar的原因是因为：如果不安装就会报错。。。

4、创建项目

New =>Project然后如图操作

前提是你下载了Scala插件，步骤二

我的工程名其实是wordcount，这个是示范用的

代码放这里：

package aa.bb

import org.apache.spark.{SparkConf, SparkContext}

object cc {
  def main(args:Array[String]):Unit={
    val conf=new SparkConf().setAppName("wordcount").setMaster("local")
    val sc = new SparkContext(conf)
    val input=sc.textFile("/input/ceshi.txt")
    val count = input.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((x,y)=>x+y)
    count.saveAsTextFile("/output")
  }
}

5、添加库（举例一个）

例子只添加了spark-core的jar包，其他的请自行添加，有手就行

6、build词频统计jar包

Build 成功后，将 D:\IntellijIDEA\mywordcount\out\artifacts\mywordcount_jar 目录下的 mywordcount.jar 包拷贝到虚拟机里。

7、虚拟机里的操作

先把jar包和测试的文本文件准备好，如果工程名和我不一样的可能jar包名字不一样

进入hadoop/sbin目录下通过start-all.sh启动hadoop

通过jps命令查看是否正常启动

然后就是一个坑点！另开启一个终端，把hadoop/etc下的core-site.xml文件中添加的内容注释掉（注意不要删掉configuration标签）

在hadoop/bin目录下查看hdfs文件目录，并没有input和output

创建input文件夹

把ceshi.txt放进input文件夹中，看看是否放进去了

进入spark目录下，提交词频统计wordcount.jar包

再返回hadoop/bin下，查看hdfs文件目录发现出现了输出文件夹

最后就查看结果即可，大功告成！

记得以后正常用hadoop的话，要把那个配置文件里注释的内容给恢复回来喔~

roadkiller.

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Window 上使用 IDEA 编写词频统计的 scala 程序，提交 jar 包到虚拟机上运行

1、安装IDEA下载地址：https://www.jetbrains.com/idea/download/#section=windows2、IDEA中Scala插件的安装安装好IDEA之后，在Setting中添加插件Scala，点击Install即可3、下载几个jar包ps.我习惯把这些包放到IDEA的plugin目录下，方便以后好添加第一个：spark-core_2.11-2.4.4.jar网址：https://repo1.maven.org/maven2/org/
复制链接

扫一扫

专栏目录