2017年度职业院校技能大赛(平台搭建)

大数据技术与应用赛项赛题(平台搭建)

第一节赛题

“四合影业”公司计划参与投拍一部电影,名为《青春的竞赛》。为提高票房收入,降低投资风险,需要了解电影市场的情况,包括何种类型的电影票房收入高,不同类型观众对电影的偏好等等。为此,四合影业公司计划聘请“TMS”大数据分析公司,收集并分析电影市场的相关信息,并最终给出分析报告。合作之前,“四合影业”需要“TMS”公司提出可行的技术解决方案。

为完成四合影业的项目,“TMS”公司选用了在业界广泛应用的“Python”语言,作为开发分析程序的基础语言,并综合利用numpy、pandas、matplotlib、scikit 模块和MapReduce技术提高开发效率,由于预计数据量会超过“T”级,“TMS”公司在技术方案中提出在一个高性能工作站集群上利用Hadoop平台提高数据处理能力,并利用Hive以及streaming技术提高效能和简化MapReduce过程。但此技术方案需要较高成本,为向“四合影业”展示该技术方案的合理性并达成与“四合影业”的合作,“TMS”公司先用廉价PC集群,配置了小规模的技术演示环境,并利用网络爬虫抓取了历年来影音娱乐行业的信息,数据量约为4G,随后开发了程序对数据进行清洗、整理、计算、表达、分析,力求展示“TMS”技术方案的合理性和自身出色的技术能力。

作为“TMS”公司的技术人员,你们是这次技术方案展示的核心成员,请按照下面步骤完成本次技术展示任务,并提交技术报告。圆满完成展示并得到预期结果,“TMS”就能获得这个数百万元的项目合同,祝你们成功。

任务一、部署Hadoop平台,并根据计算对象调优Hadoop平台的性能(15分)
1、按下面如下个步骤完成Hadoop环境的部署:
1)Hadoop系统存储于“/usr/local/hadoop”,要求配置hadoop.tmp.dir目录存放位置为“/usr/local/hadoop/tmp”

2)配置hadoop的dfs.namenode.name.dir为/usr/local/hadoop/tmp/dfs/name 3)配置hadoop的dfs.datanode.data.dir为/usr/local/hadoop/tmp/dfs/data

4)格式化NameNode 5)开启NameNode和DataNode守护进程

本题要求配置完成后在Hadoop平台上运行jps命令,要求jps运行结果的截屏保存于文件ans0101.jpg中

2、按下面步骤建立用户目录,并导入存于竞赛平台arg目录中的数据文件dat0102.dat,并完成Hadoop平台的性能测试:

1)在hdfs中创建用户目录(如果系统用户为hadoop,请建立/user/hadoop)2)在hdfs中创建input目录,把数据文件上传至input目录

3)运行hadoop-mapreduce-examples-2.7.3.jar查询特定字符串出现次数

4)用hdfs命令查看输出结果。本题要求将第4步运行结果的截屏保存于文件ans0102.jpg中。

3、对Hadoop 平台进行性能调优,设置: 
yarn.scheduler.maximum-allocation-mb的值为系统内存减1024MB,
mapreduce.map.memory.mb的值为1024MB,设置mapreduce.map.java.opts的值为-Xmx768m,设置mapreduce.reduce.memory.mb的值为2048MB,设置mapreduce.reduce.java.opts的值为–Xmx1536m。重新启动hadoop。本题要求提交修改后的配置文件,文件名为在原有文件名加前缀”ans0103_”。(5%)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值