(HDFS)部署开发平台Intellij IDEA&&单词统计练习——大数据分析及其可视化5

1.配置Maven工具

左上角点击File-> Settings

选择Maven工具的路径打开到bin文件夹

复制远程仓库的地址:C:\Users\Administrator\.m2 

在windows下点开我的电脑复制进去

打开我们的文件确保该文件下有settings.xml 如果没有我们打开maven的

 进入conf文件夹

复制这个settings.xml到 C:\Users\Administrator\.m2 文件下

打开配置55行

 提示《有些的maven版本不同在mvan的文件夹里有responsitory这个时候我我们在配置55行地址的时候要选择到responsitory文件的地址,我这个3.8.2的版本没有我直接选择到maven的地址》

2.创建项目

左上角 FIle->new project 

展开项目的目录结构

 

 在windows下找到hadoop的配置文件导入到resource

这个hadoop的配置文件是在linux主节点下配置好下载到hadoop的不懂可以hadoop配置文件的来源

打开文件夹复制复制已选择的4项

 粘贴到IDEA

 配置pom.xml 双击打开

配置文件的信息的地址可以参考阅读

 添加如下代码注意自己的版本号<version>2.7.3</version>我的是2.7.3

    <dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.3</version>
    </dependency>
    </dependencies>

添加进去后IDEA会弹出提示下载包我们要选择下载不然会报错

3.创建包和类

创建3个java类

Mynain.java

package com.MapTest;
import java.util.Date;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class Mymain {
    public static void main(String[] args) throws Exception {
        // Configuration类:读取Hadoop的配置文件,如 site-core.xml...;
        // 也可用set方法重新设置(会覆盖):conf.set("fs.default.name", "hdfs://xxxx:9000")
        Configuration conf = new Configuration();
        // 将命令行中参数自动设置到变量conf中
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        /**
         * 这里必须有输入输出
         */

        if (otherArgs.length != 2) {
            System.err.println("Usage: wordcount <in> <out>");
            System.exit(2);
        }

        Job job = new Job(conf, "word count"); // 新建一个 job,传入配置信息
        job.setJarByClass(Mymain.class); // 设置 job 的主类
        job.setMapperClass(MyMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(MyReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(MyReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(otherArgs[0])); // 文件输入
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); // 文件输出
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new Date().toGMTString() + (result ? "成功" : "失败"));
        System.exit(result ? 0 : 1); // 等待完成退出
    }
}

MyMap.java

package com.MapTest;
import java.io.IOException;
import java.util.Date;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
// 创建一个 WordMapper类 继承于 Mapper抽象类
public class MyMap extends Mapper<Object, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("['.;,?| \t\n\r\f]");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            System.out.println(new Date().toGMTString() + ":" + word + "出现一次,计数+1");
            context.write(word, one);
        }
    }
}

MyReduce.java

package com.MapTest;
import java.io.IOException;
import java.util.Date;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

// 创建一个 WordReducer类 继承于 Reducer抽象类
public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable>
{
    private IntWritable result = new IntWritable(); // 用于记录 key 的最终的词频数

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException
    {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        result.set(sum); // 得到最终词频数
        System.out.println(new Date().toGMTString()+":"+key+"出现了"+result);
        context.write(key, result); // 写入结果
    }
}

 3.打包操作

打开操作台

清理包点击clean

 打包操作点击package

 在目录结构下生成jar包

选择 jar包,复制到windows桌面下

 

 用MobaXterm工具将jar包放到主节点下的 home目录

 

查看到我们带入的jar包存在

在windows下拖拽一个txt文件

在liunx下查看data_word.txt文件

 在主节点下的hdfs dfs文件夹创建一个新的文件夹

hdfs dfs -mkdir /data_input

 然后我们将home目录下的txt数据文件put到hdfs  /data_input文件夹

 hdfs dfs -put /home/data_word.txt /data_input
 

 查看是不是存在data_word.txt文件

hdfs dfs -ls /data_input
 

4. 执行运算操作

在home目录下(放jar包的目录)执行命令:

[root@namenod1 home]# hadoop jar mapText-1.0-SNAPSHOT.jar com.MapTest.Mymain /data_input /data_output

(格式 hadoop jar 【jar包】【包名】.【主类名】/数据上传文件 /数据处理后文件)

 结果

查看处理好的文件 查看命令:[root@namenod1 home]# hdfs dfs -ls /

 成功运行MapReduce系统会生成我们的data_output文件夹

查看data_output文件夹[root@namenod1 home]# hdfs dfs -ls /data_output

 data_output下的part-r-00000就是处理结果的保存文件我们来查看他

[root@namenod1 home]# hdfs dfs -cat /data_output/part-r-00000

 有了完整的统计数据

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值