Day6 —— 电商日志数据分析项目部署流程

项目部署过程

以IDEA 2023版本为例

步骤一:创建一个空项目,命名为demo_2,并指定语言类型和构建工具,这里选择Java和Maven,选择自己的JDK版本,推荐使用1.8,在下方的Advanced Setting中的GroupId以及ArtifactId默认即可,点击Create创建。

在这里插入图片描述

在IDEA上方File—>New—>Project可以找到创建New Project。

在这里插入图片描述

创建成功如图所示,这里的Main.java可以删除。

在这里插入图片描述

在pom.xml文件中加入新的Hadoop依赖,点击右上角进行刷新。

在这里插入图片描述

加载成功会出现如下的图示。

在这里插入图片描述

我们需要导入本地的maven路径,这应该是在创建完项目后就要进行的,
点击File—>Settings。

在这里插入图片描述

在最上方搜索框输入maven,或者在Build,Execution,Deployment—>Build Tools—>Maven,在Maven home path设置自己的maven安装路径,User setting file 首先点击一下Override,然后选择自己maven路径下中的conf文件夹下的settings.xml文件,Local repository 新建一个文件夹作为本地仓库地址,命名为localRepository。

在这里插入图片描述

在src—>main—>java—>org—>example目录下,创建一个名为PageCount的Java Class,如图所示。

在这里插入图片描述

并向其中填写代码。

在这里插入图片描述

在编写ETL解析代码之前,我们需要导入工具类,复制粘贴即可,注意导入目录

在这里插入图片描述

继续创建一个名为ETL和PageProvince的Java Class,并向其中填入代码。

在这里插入图片描述
在这里插入图片描述

点击IDEA右侧栏中的maven—>Lifecycle—>package,进行打包。

在这里插入图片描述

在下方出现BUILD SUCCESS,表示打包成功。

在这里插入图片描述

在生成的target目录中包含demo_2-1.0-SNAPSHOT.jar就是我们的目的jar包

在这里插入图片描述

将jar包上传到Linux操作系统的本地上,通过Xftp工具,Windows路径(左侧)为你生成的jar包路径,Linux路径(右侧)就是你操作系统的当前路径,点击一下即可上传。

在这里插入图片描述

上传成功后,可以通过ls命令或者ll命令在当前目录下找到上传的jar包

在这里插入图片描述

进行在Linux中操作运行,
通过命令start-all.sh,启动Hadoop集群,
并通过命令hdfs dfs -put /trackinfo_20130721.txt /pageFlum将需要处理的数据文件上传到HDFS上。

首先需要创建/pageFlum目录,hdfs dfs -mkdir /pageFlum,
通过命令hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.PageCount /pageFlum 运行jar包。

之后ETL类和PageProvince类分别运行,通过修改org.example后的类名即可。
hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.ETL /pageFlum
hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.PageProvince /ETL/etl

在output/PageCountOut查看结果文件part-r-00000,即为统计页面浏览量的结果
在ETL/etl查看结果文件part-r-00000,即为日志ETL解析结果
在output/PageProvinceOut查看结果文件part-r-00000,即为省份浏览量的结果

相关依赖

<dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.2.0</version>
        </dependency>
    </dependencies>

<groupId>:指定依赖的组织ID,这里是 org.apache.hadoop,表示 Apache Hadoop 组织。

<artifactId>:指定依赖的项目ID,这里是 hadoop-client,表示 Apache Hadoop 的客户端库。

<version>:指定依赖的版本号,这里是 3.2.0,表示您要使用的 Apache Hadoop 客户端库的版本是 3.2.0。

运行结果截图

统计页面浏览量

在这里插入图片描述

日志的ETL操作

在这里插入图片描述

统计各个省份的浏览量

在这里插入图片描述

  • 14
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值