(HDFS)部署开发平台Intellij IDEA&&单词统计练习——大数据分析及其可视化5

最新推荐文章于 2023-04-13 11:36:36 发布

new DFP

最新推荐文章于 2023-04-13 11:36:36 发布

阅读量1.1k

点赞数 4

文章标签：网络数据分析 centos

本文链接：https://blog.csdn.net/weixin_53472653/article/details/121487784

版权

1.配置Maven工具

左上角点击File-> Settings

选择Maven工具的路径打开到bin文件夹

复制远程仓库的地址：C:\Users\Administrator\.m2

在windows下点开我的电脑复制进去

打开我们的文件确保该文件下有settings.xml 如果没有我们打开maven的

进入conf文件夹

复制这个settings.xml到 C:\Users\Administrator\.m2 文件下

打开配置55行

提示《有些的maven版本不同在mvan的文件夹里有responsitory这个时候我我们在配置55行地址的时候要选择到responsitory文件的地址，我这个3.8.2的版本没有我直接选择到maven的地址》

2.创建项目

左上角 FIle->new project

展开项目的目录结构

在windows下找到hadoop的配置文件导入到resource

（这个hadoop的配置文件是在linux主节点下配置好下载到hadoop的不懂可以看hadoop配置文件的来源）

打开文件夹复制复制已选择的4项

粘贴到IDEA

配置pom.xml 双击打开

配置文件的信息的地址可以参考阅读

添加如下代码注意自己的版本号<version>2.7.3</version>我的是2.7.3

    <dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.3</version>
    </dependency>
    </dependencies>

添加进去后IDEA会弹出提示下载包我们要选择下载不然会报错

3.创建包和类

创建3个java类

Mynain.java

package com.MapTest;
import java.util.Date;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class Mymain {
    public static void main(String[] args) throws Exception {
        // Configuration类：读取Hadoop的配置文件，如 site-core.xml...；
        // 也可用set方法重新设置（会覆盖）：conf.set("fs.default.name", "hdfs://xxxx:9000")
        Configuration conf = new Configuration();
        // 将命令行中参数自动设置到变量conf中
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        /**
         * 这里必须有输入输出
         */

        if (otherArgs.length != 2) {
            System.err.println("Usage: wordcount <in> <out>");
            System.exit(2);
        }

        Job job = new Job(conf, "word count"); // 新建一个 job，传入配置信息
        job.setJarByClass(Mymain.class); // 设置 job 的主类
        job.setMapperClass(MyMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(MyReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(MyReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(otherArgs[0])); // 文件输入
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); // 文件输出
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new Date().toGMTString() + (result ? "成功" : "失败"));
        System.exit(result ? 0 : 1); // 等待完成退出
    }
}

MyMap.java

package com.MapTest;
import java.io.IOException;
import java.util.Date;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
// 创建一个 WordMapper类 继承于 Mapper抽象类
public class MyMap extends Mapper<Object, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    // Mapper抽象类的核心方法，三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文，与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("['.;,?| \t\n\r\f]");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            System.out.println(new Date().toGMTString() + ":" + word + "出现一次，计数+1");
            context.write(word, one);
        }
    }
}

MyReduce.java

package com.MapTest;
import java.io.IOException;
import java.util.Date;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

// 创建一个 WordReducer类 继承于 Reducer抽象类
public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable>
{
    private IntWritable result = new IntWritable(); // 用于记录 key 的最终的词频数

    // Reducer抽象类的核心方法，三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合（相同key的集合）
                       Context context) // Reduce 端的上下文，与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException
    {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合，并把值相加
        {
            sum += val.get();
        }
        result.set(sum); // 得到最终词频数
        System.out.println(new Date().toGMTString()+":"+key+"出现了"+result);
        context.write(key, result); // 写入结果
    }
}

3.打包操作

打开操作台

清理包点击clean

打包操作点击package

在目录结构下生成jar包

选择 jar包，复制到windows桌面下

用MobaXterm工具将jar包放到主节点下的 home目录

查看到我们带入的jar包存在

在windows下拖拽一个txt文件

在liunx下查看data_word.txt文件

在主节点下的hdfs dfs文件夹创建一个新的文件夹

hdfs dfs -mkdir /data_input

然后我们将home目录下的txt数据文件put到hdfs /data_input文件夹

hdfs dfs -put /home/data_word.txt /data_input

查看是不是存在data_word.txt文件

hdfs dfs -ls /data_input

4. 执行运算操作

在home目录下（放jar包的目录）执行命令：

[root@namenod1 home]# hadoop jar mapText-1.0-SNAPSHOT.jar com.MapTest.Mymain /data_input /data_output

（格式 hadoop jar 【jar包】【包名】.【主类名】/数据上传文件 /数据处理后文件）

结果

查看处理好的文件查看命令：[root@namenod1 home]# hdfs dfs -ls /

成功运行MapReduce系统会生成我们的data_output文件夹

查看data_output文件夹[root@namenod1 home]# hdfs dfs -ls /data_output

data_output下的part-r-00000就是处理结果的保存文件我们来查看他

[root@namenod1 home]# hdfs dfs -cat /data_output/part-r-00000

有了完整的统计数据

new DFP

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
(HDFS)部署开发平台Intellij IDEA&&单词统计练习——大数据分析及其可视化5

1.配置Maven工具左上角点击File->Settings选择Maven工具的路径打开到bin文件夹2.创建项目左上角FIle->new project展开项目的目录结构在windows下找到hadoop的配置文件导入到resource（这个hadoop的配置文件是在linux主节点下配置好下载到hadoop的不懂可以看hadoop配置文件的来源）打开文件夹复制复制已选择的4项粘贴到IDEA配置pom.xml双...
复制链接

扫一扫