一、sparkRDD进行词频统计
(1)准备工作
- 在虚拟机创建words.txt文本
[atguigu@master ~]$ vim words.txt
上传到hdfs上(在上传前查看hadoop集群启动没有)
在hdfs上创建input目录
- 上传文件到hdfs
[atguigu@master ~]$ hadoop fs -put words.txt /input
(2)新建Maven项目
- 新建Maven项目,基于JDK1.8
点击Next
点击Finish
增加目录scala
(3)添加相关依赖
- 查看scala版本
- 添加依赖
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion><groupId>net.cch.rdd</groupId>
<artifactId>S