“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

系列文章目录

集群安装搭建赛题解析

构建数据仓库赛题解析

目录

“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

前言

在此鸣谢

资料链接

一、 集群安装搭建(70 / 70分)

1.比赛框架

2.比赛内容

3.版本说明

core-site.xml参数配置详情

hdfs-site.xml参数配置详情

yarn-site.xml参数配置详情

mapred-site.xml参数配置详情

二、构建数据仓库(30 / 30分)

1.比赛框架

2.比赛内容

3.版本说明


 “红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

前言

根据“红亚杯”-大数据环境搭建与数据采集技能线上专题赛以及鈴音.博主文章结合整理,附上资料链接。

在此鸣谢

鈴音.

资料链接

链接:https://pan.baidu.com/s/1ssv79w85JKAF7wjPBd-Eyw 
提取码:vd1a 

一、 集群安装搭建(70 / 70分)

1.比赛框架

本次比赛为分布式集群搭建,共三台节点,其中master作为主节点,slave1、salve2为从节点;

2.比赛内容

  • 基础配置:修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问;
  • JDK安装:环境变量;
  • Zookeeper部署:环境变量、配置文件zoo.cfg、myid;
  • Hadoop部署:环境变量、配置文件修改、设置节点文件、格式化、开启集群;
  • Hive部署:Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包(/usr/package)已安装服务系统版本
hadoop-2.7.3.tar.gzntpCentOS Linux release 7.3.1611 (Core)
zookeeper-3.4.10.tar.gzmysql-community-server
apache-hive-2.1.1-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
mysql-connector-java-5.1.47-bin.jar

core-site.xml参数配置详情

官方文档:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml

core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值

属性说明
fs.default.namehdfs://????定义master的URI和端口
hadoop.tmp.dir/????临时文件夹,指定后需将使用到的所有子级文件夹都要手动创建出来,否则无法正常启动服务。

hdfs-site.xml参数配置详情

属性说明
dfs.replication???hdfs数据块的复制份数,默认3,理论上份数越多跑数速度越快,但是需要的存储空间也更多。
dfs.namenode.name.dirfile:/usr/hadoop/hadoop-2.7.3/hdfs/????NN所使用的元数据保存
dfs.datanode.data.dirfile:/usr/hadoop/hadoop-2.7.3/hdfs/????真正的datanode数据保存路径,可以写多块硬盘,逗号分隔

yarn-site.xml参数配置详情

属性说明
yarn.resourcemanager.admin.address${yarn.resourcemanager.hostname}:18141ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。
yarn.nodemanager.aux-servicesmapreduce_shuffleNodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序

mapred-site.xml参数配置详情

属性说明
mapreduce.framework.nameyarn指定MR运行框架,默认为local

二、构建数据仓库(30 / 30分)

1.比赛框架

本次比赛为分布式集群搭建,共三台节点,其中master作为主节点,slave1、salve2为从节点;

2.比赛内容

  • 基础配置:修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问;
  • JDK安装:环境变量;
  • Zookeeper部署:环境变量、配置文件zoo.cfg、myid;
  • Hadoop部署:环境变量、配置文件修改、设置节点文件、格式化、开启集群;
  • Hive部署:Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包(/usr/package)已安装服务系统版本
hadoop-2.7.3.tar.gzntpCentOS Linux release 7.3.1611 (Core)
zookeeper-3.4.10.tar.gzmysql-community-server
apache-hive-2.1.1-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
mysql-connector-java-5.1.47-bin.jar

4.数据仓库架构说明
集群中使用远程模式,使用外部数据库MySQL用于存储元数据,使用client/thrift server的连接方式进行访问。其中slave2节mysql数据库,slave1作为hive服务器端,master作为hive客户端。

发现百度网盘链接

×
密码:yikm
打开No关闭
  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

慕铭yikm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值