2017年度职业院校技能大赛(平台搭建)

大数据技术与应用赛项赛题(平台搭建)

第一节赛题

“四合影业”公司计划参与投拍一部电影,名为《青春的竞赛》。为提高票房收入,降低投资风险,需要了解电影市场的情况,包括何种类型的电影票房收入高,不同类型观众对电影的偏好等等。为此,四合影业公司计划聘请“TMS”大数据分析公司,收集并分析电影市场的相关信息,并最终给出分析报告。合作之前,“四合影业”需要“TMS”公司提出可行的技术解决方案。

为完成四合影业的项目,“TMS”公司选用了在业界广泛应用的“Python”语言,作为开发分析程序的基础语言,并综合利用numpy、pandas、matplotlib、scikit 模块和MapReduce技术提高开发效率,由于预计数据量会超过“T”级,“TMS”公司在技术方案中提出在一个高性能工作站集群上利用Hadoop平台提高数据处理能力,并利用Hive以及streaming技术提高效能和简化MapReduce过程。但此技术方案需要较高成本,为向“四合影业”展示该技术方案的合理性并达成与“四合影业”的合作,“TMS”公司先用廉价PC集群,配置了小规模的技术演示环境,并利用网络爬虫抓取了历年来影音娱乐行业的信息,数据量约为4G,随后开发了程序对数据进行清洗、整理、计算、表达、分析,力求展示“TMS”技术方案的合理性和自身出色的技术能力。

作为“TMS”公司的技术人员,你们是这次技术方案展示的核心成员,请按照下面步骤完成本次技术展示任务,并提交技术报告。圆满完成展示并得到预期结果,“TMS”就能获得这个数百万元的项目合同,祝你们成功。

任务一、部署Hadoop平台,并根据计算对象调优Hadoop平台的性能(15分)
1、按下面如下个步骤完成Hadoop环境的部署:
1)Hadoop系统存储于“/usr/local/hadoop”,要求配置hadoop.tmp.dir目录存放位置为“/usr/local/hadoop/tmp”

2)配置hadoop的dfs.namenode.name.dir为/usr/local/hadoop/tmp/dfs/name 3)配置hadoop的dfs.datanode.data.dir为/usr/local/hadoop/tmp/dfs/data

4)格式化NameNode 5)开启NameNode和DataNode守护进程

本题要求配置完成后在Hadoop平台上运行jps命令,要求jps运行结果的截屏保存于文件ans0101.jpg中

2、按下面步骤建立用户目录,并导入存于竞赛平台arg目录中的数据文件dat0102.dat,并完成Hadoop平台的性能测试:

1)在hdfs中创建用户目录(如果系统用户为hadoop,请建立/user/hadoop)2)在hdfs中创建input目录,把数据文件上传至input目录

3)运行hadoop-mapreduce-examples-2.7.3.jar查询特定字符串出现次数

4)用hdfs命令查看输出结果。本题要求将第4步运行结果的截屏保存于文件ans0102.jpg中。

3、对Hadoop 平台进行性能调优,设置: 
yarn.scheduler.maximum-allocation-mb的值为系统内存减1024MB,
mapreduce.map.memory.mb的值为1024MB,设置mapreduce.map.java.opts的值为-Xmx768m,设置mapreduce.reduce.memory.mb的值为2048MB,设置mapreduce.reduce.java.opts的值为–Xmx1536m。重新启动hadoop。本题要求提交修改后的配置文件,文件名为在原有文件名加前缀”ans0103_”。(5%)

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值