Day6 —— 电商日志数据分析项目部署流程

刘洋988

已于 2024-06-20 17:10:16 修改

阅读量1.8k

点赞数 23

文章标签：数据分析数据挖掘大数据 maven hadoop

于 2024-06-19 10:44:56 首次发布

本文链接：https://blog.csdn.net/weixin_62804382/article/details/139794727

版权

项目二 _____（电商日志数据分析项目）

项目部署过程

以IDEA 2023版本为例

步骤一：创建一个空项目，命名为demo_2，并指定语言类型和构建工具，这里选择Java和Maven，选择自己的JDK版本，推荐使用1.8，在下方的Advanced Setting中的GroupId以及ArtifactId默认即可，点击Create创建。

在这里插入图片描述

在IDEA上方File—>New—>Project可以找到创建New Project。

在这里插入图片描述

创建成功如图所示，这里的Main.java可以删除。

在这里插入图片描述

在pom.xml文件中加入新的Hadoop依赖，点击右上角进行刷新。

在这里插入图片描述

加载成功会出现如下的图示。

在这里插入图片描述

我们需要导入本地的maven路径，这应该是在创建完项目后就要进行的，
点击File—>Settings。

在这里插入图片描述

在最上方搜索框输入maven，或者在Build，Execution，Deployment—>Build Tools—>Maven，在Maven home path设置自己的maven安装路径，User setting file 首先点击一下Override，然后选择自己maven路径下中的conf文件夹下的settings.xml文件，Local repository 新建一个文件夹作为本地仓库地址，命名为localRepository。

在这里插入图片描述

在src—>main—>java—>org—>example目录下，创建一个名为PageCount的Java Class，如图所示。

在这里插入图片描述

并向其中填写代码。

在这里插入图片描述

在编写ETL解析代码之前，我们需要导入工具类，复制粘贴即可，注意导入目录

在这里插入图片描述

继续创建一个名为ETL和PageProvince的Java Class，并向其中填入代码。

在这里插入图片描述

点击IDEA右侧栏中的maven—>Lifecycle—>package，进行打包。

在这里插入图片描述

在下方出现BUILD SUCCESS，表示打包成功。

在这里插入图片描述

在生成的target目录中包含demo_2-1.0-SNAPSHOT.jar就是我们的目的jar包

在这里插入图片描述

将jar包上传到Linux操作系统的本地上，通过Xftp工具，Windows路径（左侧）为你生成的jar包路径，Linux路径（右侧）就是你操作系统的当前路径，点击一下即可上传。

在这里插入图片描述

上传成功后，可以通过ls命令或者ll命令在当前目录下找到上传的jar包

在这里插入图片描述

进行在Linux中操作运行，
通过命令start-all.sh，启动Hadoop集群，
并通过命令hdfs dfs -put /trackinfo_20130721.txt /pageFlum将需要处理的数据文件上传到HDFS上。

首先需要创建/pageFlum目录，hdfs dfs -mkdir /pageFlum，
通过命令hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.PageCount /pageFlum 运行jar包。

之后ETL类和PageProvince类分别运行，通过修改org.example后的类名即可。
hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.ETL /pageFlum
hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.PageProvince /ETL/etl

在output/PageCountOut查看结果文件part-r-00000，即为统计页面浏览量的结果
在ETL/etl查看结果文件part-r-00000，即为日志ETL解析结果
在output/PageProvinceOut查看结果文件part-r-00000，即为省份浏览量的结果