学院:计算机学院
专业:数据科学与大数据技术
实训项目:手机流量分析项目
环境:idea+maven+hadoop
题目:设计MapReduce统计每个手机号上行流量和、下行流量和、总流量和(即上
行流量和+下行流量和)
第一天工作:
1、搭建hadoop
2、安装下载idea并配置好maven
1、启动并检验hadoop是否正常运行
这里不做教程讲解(本人是初学小白,不敢把大家带偏)。安装部署教程详细可以搜索“CentOS上Hadoop的伪分布安装”(单机安装即可)
(1)创建好虚拟机(这里起名叫Hadoop102)
(2)解压 hadoop-3.2.0.tar.gz 安装包到/export/servers目录下
(3)修改 yarn-site.xml,设置 yarn 上支持运行的服务和环境变量白名单
(4)修改 hdfs-site.xml 文件,把 hdfs 中文件副本的数量设置为 1,因为现在伪分布集群只有一个节点
(5)修改 core-site.xml 文件,注意 fs.defaultFS 属性中的主机名需要和你配置的主机名保持一致
(6)修改 core-site.xml 文件,注意 fs.defaultFS 属性中的主机名需要和你配置的主机名保持一致
(7)启动hadoop并用jps命令查看进程情况,确认启动成功
2、到这里已经确认Hadoop安装完成。接下来要进行idea中maven的部署
(1)下载并安装idea,这是我安装的版本(idea2023.1.6破译版)
(2)根据maven部署教程,创建maven项目。这里用的JDK是1.8.0
(3)尝试在pom.xml中添加一些常用依赖
(4)顺利导入依赖并且没有报错
今天的实训告一段落,剩下的明天继续干