2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…

2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…
武汉唯众智创科技有限公司
2024 年 4 月
联系人:辜渝傧13037102709

题号:试题07

ZZ052-大数据应用与服务赛项试题 07

模块一:平台搭建与运维

(一)任务一:大数据平台搭建

1.子任务一:Hadoop 完全分布式安装配置
本任务需要使用 root 用户完成相关配置,安装 Hadoop 需要配置前置环境。命令中要求使用绝对路径,具体要求如下:
(1)从 Master 中的/opt/software 目录下将文件hadoop-3.1.3.tar.gz、jdk-8u191-linux-x64.tar.gz 安装 将 JDK 解压命令复制并粘贴至客户端桌面【M1-T1-SUBT1-提 交结果 1.docx】中对应的任务序号下;
答:

tar zxvf /opt/software/hadoop-3.2.1.tar.gz -C /root/software/
tar zxvf /opt/software/jdk-8u202-linux-x64.tar.gz -C /root/software

(2)修改 Master 中/etc/profile 文件,设置 JDK 环境 变量并使其生效,配置完毕后在 Master 节点分别执行“java -version”和“javac”命令,将命令行执行结果分别截图 并粘贴至客户端桌面【M1-T1-SUBT1-提交结果2.docx】中对应的任务序号下;
答:

 vi /etc/profile
export JAVA_HOME=/root/software/jdk1.8.0
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
添加完成后保存。执行source /etc/profile命令。

(3)请完成 host 相关配置,将三个节点分别命名为master、slave1、slave2,并做免密登录,用 scp 命令并使 用绝对路径从 Master 复制 JDK 解压后的安装文件到 slave1、 slave2 节点(若路径不存在,则需新建),并配置 slave1、 slave2 相关环境变量,将全部 scp 复制 JDK 的命令复制并粘
贴至客户端桌面【M1-T1-SUBT1-提交结果 3.docx】中对应的 任务序号下;
答:

在master上生成SSH密钥对,执行ssh-keygen -t rsa,一直回车即可。
将master上的公钥拷贝到slave1和slave2上;ssh-copy-id slave1
根据提示输入yes以及目标主机密码即可,slave2同理。
在 master 上通过 SSH 连接 slave1 和 slave2 来验证。
ssh slave1
执行上述命令后无需输入密码即可直接连接到slave1表示成功,slave2同理。
scp -r /root/software/hadoop-3.2.1 root@slave1:/root/software/
scp -r /root/software/hadoop-3.2.1 root@slave2:/root/software/

(4)在 Master 将 Hadoop 解压到/opt/module(若路径 不存在,则需新建)目录下,并将解压包分发至 slave1、 slave2 中,其中 master、slave1、slave2 节点均作为 datanode,配置好相关环境,初始化 Hadoop 环境 namenode, 将初始化命令及初始化结果截图(截取初始化结果日志最后 20 行即可)粘贴至客户端桌面【M1-T1-SUBT1-提交结果 4.docx】中对应的任务序号下;
答:

hadoop-env.sh:
export JAVA_HOME=/root/software/jdk1.8.0
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
core-site.xml:
<!-- 在configuration标签内添加以下内容 -->
<property>
	<name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>
<!-- 临时文件存放位置 -->
<property>
	<name>hadoop.tmp.dir</name>
    <value>/root/software/hadoop-3.2.1/hadoopDatas/tempDatas</value>
</property>
hdfs-site.xml:
<!-- 在configuration标签内添加以下内容 -->
<!-- 设置副本数量 -->
<property>
        <name>dfs.replication</name>
    <value>2</value>
</property>
<!-- namenode存放的位置,老版本是用dfs.name.dir -->
<property>
        <name>dfs.namenode.name.dir</name>
    <value>/root/software/hadoop-3.2.1/hadoopDatas/namenodeDatas</value>
</property>
<!-- datanode存放的位置,老版本是dfs.data.dir -->
<property>
        <name>dfs.datanode.data.dir</name>
    <value>/root/software/hadoop-3.2.1/hadoopDatas/datanodeDatas/</value>
</property>
<!-- 关闭文件上传权限检查 -->
<property>
        <name>dfs.permissions.enalbed</name>
    <value>false</value>
</property>
<!-- namenode运行在哪儿节点,默认是0.0.0.0:9870,在hadoop3.x中端口从原先的50070改为了9870 -->
<property>
        <name>dfs.namenode.http-address</name>
    <value>master:9870</value>
</property>
<!-- secondarynamenode运行在哪个节点,默认0.0.0.0:9868 -->
<property>
        <name>dfs.namenode.secondary.http-address</name>
    <value>master:9868</value>
</property>
mapred-site.xml:
<!-- 在configuration标签内添加以下内容 -->
<!-- 设置mapreduce在yarn平台上运行 -->
<property>
        <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<!-- 配了上面这个下面这个也得配, 不然跑mapreduce会找不到主类。MR应用程序的CLASSPATH-->
<property>
        <name>mapreduce.application.classpath</name>
    <value>/root/software/hadoop-3.2.1/share/hadoop/mapreduce/*:/root/software/hadoop-3.2.1/share/hadoop/mapreduce/lib/*</value>
</property>
<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>
yarn-site.xml:
<!-- 在configuration标签内添加以下内容 -->
<!-- resourcemanager运行在哪个节点 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
</property>
<!-- nodemanager获取数据的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<!-- 关闭虚拟内存检查 -->
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
workers:
# 删掉里面的localhost,添加以下内容
master
slave1
slave2
在master节点上使用scp命令将配置完的Hadoop安装目录直接拷贝至slave1和slave2
scp -r /root/software/hadoop-3.2.1 root@slave1:/root/software/
scp -r /root/software/hadoop-3.2.1 root@slave2:/root/software/
三台节点的“/etc/profile”文件中配置Hadoop环境变量HADOOP_HOME和PATH的值,并让配置文件立即生效;
vi /etc/profile
export HADOOP_HOME=/root/software/hadoop-3.2.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
在主节点格式化集群
hdfs namenode -format

(5)启动 Hadoop 集群(包括 hdfs 和 yarn),使用 jps 命令查看 Master 节点与 slave1 节点的 Java 进程,将 jps 命令与结果截图粘贴至客户端桌面【M1-T1-SUBT1-提交结果 5.docx】中对应的任务序号下。
答:

start-all.sh

2.子任务二:Flume 安装配置
本任务需要使用root用户完成相关配置,已安装Hadoop 及需要配置前置环境,具体要求如下:
(1)从 Master 中的/opt/software 目录下将文件apache-flume-1.9.0
-bin.tar.gz 解压到/opt/module 目录 下,将解压命令复制并粘贴至客户端桌面【M1-T1-SUBT2-提 交结果 1.docx】中对应的任务序号下;
答:

tar zxvf /opt/software/apache-flume-1.11.0-bin.tar.gz -C /root/software/

(2)完善相关配置设置,配置 Flume 环境变量,并使环境变量生效,执行命令 flume-ng version 并将命令与结 果截图粘贴至客户端桌面【M1-T1-
SUBT2-提交结果 2.docx】 中对应的任务序号下;
答:

vim /etc/profile
export FLUME_HOME=/root/software/apache-flume-1.11.0-bin
export PATH=$PATH:$FLUME_HOME/bin
source /etc/profile
配置
cd /root/software/apache-flume-1.11.0-bin/conf
cp flume-env.sh.template flume-env.sh
vim flume-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0
查看Flume版本
flume-ng version

(3)启动Flume传输Hadoop日志(namenode或datanode 日志),查看 HDFS 中/tmp/flume 目录下生成的内容,将查看 命令及结果(至少 5 条结果)截图粘贴至客户端桌面【M1-T1-SUBT2-提交结果 3.docx】中对应的任务序号下。
答:

vim conf/flume-conf-hdfs.properties,内容如下:
# Define agent name  
a1.sources = r1  
a1.sinks = k1  
a1.channels = c1  

# Describe/configure the source  
a1.sources.r1.type = exec  
a1.sources.r1.command = tail -F /root/software/hadoop-3.2.1/logs/hadoop-root-datanode-master.log

# Describe the sink  
a1.sinks.k1.hdfs.useLocalTimeStamp=true
a1.sinks.k1.type = hdfs  
a1.sinks.k1.hdfs.path = hdfs://60.0.0.5:9000/tmp/flume/%Y%m%d%H%M%S.log  
a1.sinks.k1.hdfs.use_header = true  
a1.sinks.k1.hdfs.header_key = host  

# Define the memory channel  
a1.channels.c1.type = memory  
a1.channels.c1.capacity = 10000

# Bind the source and sink to the channel  
a1.sources.r1.channels = c1  
a1.sinks.k1.channel = c1
启动:./flume-ng agent -c conf -n a1 -f ../conf/flume-conf-hdfs.properties -Dflume.root.logger=INFO,console

3.子任务三:Flink on Yarn 安装配置
本任务需要使用root用户完成相关配置,已安装Hadoop 及需要配置前置环境,具体要求如下:
(1)从 Master 中的/opt/software 目录下将文flink-1.14.0-bin-scala_
2.12.tgz解 压 到 路 径 /opt/module 中(若路径不存在,则需新建),将完整解压命令复制粘贴至客户端桌面【M1-T1-SUBT3-提交结果 1.docx】 中对应的任务序号下;
答:

tar zxf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /root/software/

(2)修改容器中/etc/profile 文件,设置 Flink 环境 变量并使环境变量生效。在容器中/opt 目录下运行命令 flink --version,将命令与结果截图粘贴至客户端桌面【M1-T1-SUBT3-提交结果 2.docx】中对应的任务序号下;
答:

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`
export FLINK_HOME=/root/software/flink-1.14.0
export PATH=$PATH:$FLINK_HOME/bin

(3)开启 Hadoop 集群,在 yarn 上以 per job 模式(即 Job 分 离 模 式 , 不 采 用 Session 模 式 ) 运 行$FLINK_HOME/examples/batch/
WordCount.jar,将运行结果最后 10 行截图粘贴至客户端桌【M1-T1-SUBT3-提交结果 3.docx】中对应的任务序号下
答:

flink run -m yarn-cluster -p 2 -yjm 2G -ytm 2G $FLINK_HOME/examples/batch/WordCount.jar

更多内容请联系
武汉唯众智创科技有限公司
欲了解更多信息,欢迎登录www.whwzzc.com,咨询电话13037102709
*本资料产品图片及技术数据仅供参考,如有更新恕不另行通知,具体内容解释权归唯众所有。

  • 14
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用\[1\]和\[2\]提供了2023广东省赛和2023贵州省赛的样题解析,涉及到数据采集、实时数据处理和离线数据处理等方面的内容。这些比赛是关于大数据技术应用的职业比赛。这些比赛的目的是考察参赛者在大数据领域的技术能力和应用能力。参赛者需要完成一系列的任务,包括数据采集、实时数据处理和离线数据处理等。具体的任务包括离线数据采集、实时数据采集、实时数据清洗和实时指标计算等。参赛者需要根据题目要求,使用相应的技术工具和方法,完成任务并提交结果。这些比赛对于参赛者来说是一个锻炼和展示自己技术能力的机会。参赛者可以通过参加这些比赛,提升自己在大数据技术应用方面的能力,同时也可以与其他同行进行交流和学习。引用\[3\]提供了关于Docker容器如何配置hosts文件的相关信息,可以帮助参赛者在比赛更好地配置和管理容器环境。 #### 引用[.reference_title] - *1* [2023广东省职业院校技能大赛大数据技术应用专业样题](https://blog.csdn.net/xlw2003/article/details/129768696)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [2023贵州省职业院校技能大赛大数据技术应用专业样题](https://blog.csdn.net/xlw2003/article/details/129768732)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [2022全国职业技能大赛大数据技术应用赛项赛题环境准备](https://blog.csdn.net/zsy2362933250/article/details/123995478)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值