![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
全国职业技能“大数据技术与应用”赛题
文章平均质量分 61
2019全国职业院校技能大赛高职组“大数据技术与应用”赛项...
濯一一
这个作者很懒,什么都没留下…
展开
-
【2019全国职业技能大赛大数据技术】任务五:18-综合分析(15分_题目)
【任务说明】任务五 : 综合分析 (15 分 )假定你为 OTA 平台的管理者,在综合理解酒店业务数据的基础上,通过以上任务一、二、三、四的相关结论,对未来拓展合作酒店方向做出预测,根据题目要求进行分析,并编写输出分析报告。【题目】根据上述任务中的结论,分析以下内容,并编写分析报告。分别从酒店分布维度和 OTA 平台订单来源维度进行分析,结合多省份酒店综合运营情况,对 OTA平台未来拓展合作酒店的方向提出建议。分析报告要求:1) 从酒店分布维度,对酒店运营情况进行分析,以 7 天酒店为例原创 2021-04-06 14:35:19 · 1827 阅读 · 12 评论 -
【2019全国职业技能大赛大数据技术】任务四:17-数据可视化(20分_题目+答案<图片+分值>)
【问题】4、 OTA 平台为了能在更多省份扩展业务,与更多酒店建立合作关系,为了赢得更多酒店的合作,在合作谈判过程中会通过同区域、同等级销售情况对比,需要提供同类酒店相关经营数据。请根据指定表中数据,以指定图例进行呈现。OTA 平台希望与酒店 A 进行线上销售合作,需要制作一份销售预测报告来说明酒店将在平台收获的间夜预期。酒店 A 信息(广东省、广州市、北京路商圈、非客栈,评论数 100,房间数 200)详细描述:1) 请以文件 data_hotel_mult.csv 为数据源,以字段:是否客栈、评论原创 2021-04-06 14:24:03 · 1600 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务四:16-数据可视化(20分_题目+答案<图片+分值>)
【问题】3、 订单数据是考量 OTA 直销酒店经营业绩的重要指标,由于某些酒店资源无法内部消化,也会出现订单分销至其它 OTA 平台的情况,此时称为分销。一般情况下,直销和分销是同时存在的。但当某些酒店或区域分销数量过多时,则表明 OTA 平台经营推广能力不足。请根据指定表中数据,以指定图例进行呈现。详细描述:1) 根据相关负责人反馈,以下酒店的分销数量占比较大:山水时尚酒店北京梨园店、北京大宝饭店、北京普乐门白领公寓 798 精品店、北京长得福宾馆、北京中联鑫华酒店西客站店、北京瑞祥居宾馆、北京花神原创 2021-04-06 14:15:41 · 1388 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务四:15-数据可视化(20分_题目+答案<图片+分值>)
【问题】2、 OTA 平台需要综合评判一个城市酒店运营情况,会涉及到多方面酒店数据,例如像高端酒店数量、订单数量、住客评分、评论数量、出租率、200 元/晚以下快捷酒店数量等信息,请根据指定表中数据统计相关数据,并以指定图例进行呈现。详细描述:1) 请以数据库 project_hotels 中 radar_lines 表为数据源,统计北京、上海、广东、四川、海南各地四星/五星酒店的数量、平均评分、评论数、各省酒店出租率、直销拒单率画出多线雷达图。具体任务要求:1) 完善main.py文件中代码,将完原创 2021-04-06 14:11:34 · 1848 阅读 · 1 评论 -
【2019全国职业技能大赛大数据技术】任务四:14-数据可视化(20分_题目+答案<图片+分值>)
【任务说明】任务四 : 数据可视化 (20 分 )本任务中 所需要 的原始数据四 存放于任务四 MySQL 的 的 project_hotels 数据库 和 计算机 桌面/H3CU_hotel/data_hotel_mult.csv 中 任务四 虚拟机 MySQL 数据库 账号/ 密码 :root/Password123$ 可视化 代码框架 路径 :\H3CU_hotel\ViewData【问题】1、 连锁酒店一般都具有全国统一的品牌形象识别系统、全国统一的会员体系和营销体系、价格相比较很原创 2021-04-06 14:04:58 · 1310 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:12-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】9、 高端酒店的数量,从一个侧面反映了当地的经济水平,据国家旅游和文化部统计境内 31 个省市(不含港澳台)共有 860 家五星级酒店,但分布很不均衡,其中东部沿海所占有的五星级数量,接近了全国一半。请你根据题目要求统计符合参数要求的高端酒店相关信息,并写入指定的数据库或数据文件,截图并保存结果。详细描述:1) 请以上述3、 、 (题目数字编号)任务的输出结果作为输入数据源,编写Spark程序统计北京、上海、广东、四川、海南各地四星/五星酒店的数量、平均评分、评论数、城市出租率,直销拒单率,原创 2021-04-05 17:53:46 · 1153 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:13-数据清洗与分析(25分_题目+答案<图片+分值>)
【问题】10、 近年来,随着我国旅游业的蓬勃发展,城市旅游业已成为重要的支柱产业和新的经济增长点,对于城市经济发展,塑造城市形象,优化产业结构发挥着巨大作用。一个城市旅游业的发展不仅需要具备独特的自然风光或者人文资源,还应具备一定旅游接待能力,保持良好的游客口碑。请根据原数据集在指定维度综合分析并获得城市的受欢迎程度排名,并写入指定的数据库或数据文件,截图并保存结果。详细描述:1) 请以上述 3&4(题目数字编号)任务的输出结果作为输入数据源,编写 Spark 程序从城市的酒店总订单、用户评分原创 2021-04-05 17:50:54 · 764 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:11-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】8、 根据业务发展需要,OTA 平台欲在全国范围内拓展合作酒店,因此请统计全国区域的 OTA 酒店订单预定及完成情况。请根据现有数据及给定参数完成统计,并写入指定的数据库或数据文件,截图并保存结果。详细描述:1) 请以上述 5 、(题目数字编号)任务的输出结果作为输入数据源(Hive 中的 rawdata 表),编写 java 程序 com.udf.AreaZone,用于 HQL 中用户自定义函数(UDF)实现地区映射,并编译打包(地区映射表见表 1);2) 结合 java 函数,使用 H原创 2021-04-05 17:23:11 · 950 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:10-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】7、 OTA 全称为 Online Travel Agency,中文译为“在线旅行社”,是旅游电子商务行业的专业词语。指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费,即各酒店通过网络进行产品营销或产品销售”。OTA 平台是酒店营销的主要途径之一,不仅降低销售成本,同时也提高了顾客体验满意度。当顾客通过 OTA 平台进行酒店预订时,酒店就拥有了用户的相关数据。通过这些数据,能够更好地收集用户需求,从而可以提供更有针对性和个性化的服务,最终能够产生更多的忠诚会员原创 2021-04-05 17:08:00 · 876 阅读 · 9 评论 -
【2019全国职业技能大赛大数据技术】任务三:9-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】6、 城市游客接纳能力是城市规划建设中的重要指标,其中城市的酒店数量和房间数量是城市游客接纳能力的关键要素。请编写程序或脚本根据酒店管理网站中的数据统计各城市的相关信息,并写入指定的数据库或数据文件,截图并保存结果。详细描述:1) 请以上述3(题目数字编号)任务的输出结果作为输入数据源,编写Spark程序统计各城市的酒店数量和房间数量,以城市房间数量降序排列并输出前 10 条统计结果,输出至 HDFS 文件系统中/hotelsparkhive1。要求输出字段包含:省份、城市、酒店数量、房间数原创 2021-04-05 16:43:05 · 856 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:8-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】5、 请根据题目中具体参数要求,使用数据传输工具,将指定文件推送至相关位置,截图并保存结果。详细描述:1) 在 Hive 中创建数据库 hoteldata;2) 使用 hoteldata 数据库,建立数据表 rawdata,将上述 3、 、 (题目数字编号)任务输出数据导入至 rawdata 中;3) 使用 Sqoop 实现 Hive 到 MySQL 的传输。具体任务要求:1) 在 Hive 中创建数据库,库名 hoteldata;2) 在 hoteldata 数据库中创建数据表 r原创 2021-04-05 16:19:39 · 1266 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:7-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】4、 给定数据集中,酒店信息覆盖全国各个城市,不同省份及城市间旅游业的发展程度各不相同。考虑到数据集规模较大,酒店信息所形成的大数据集难以直观理解和统计,为便于信息理解和整合,请根据题目具体参数要求处理数据,截图并保存结果。详细描述:请以上述3 (题目数字编号)任务的输出结果作为输入数据源,编写Spark程序,按照如下要求实现对数据的清洗。1) 计算新字段城市总订单、城市酒店平均用户评分、城市酒店总评论数,新数据集中需包含 seq、城市总订单、城市酒店平均用户评分、城市酒店总评论数。程序.原创 2021-04-05 16:09:34 · 958 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务三:6-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】3、 原始数据集来自于多个平台及网站,且为多次采集汇总,因此数据集中的某些字段有可能会出现一些重复或非法格式,例如多次采集过程中产生的重复信息,或来自于某网站的不合规数据。这些信息的存在既无实际的业务分析意义,甚至还会影响最终分析结果。请根据题目具体参数要求处理不合规数据,截图并保存结果。详细描述:请以上述 1 、(题目数字编号)任务结果数据集作为输入数据源/hotelsparktask1,编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotels原创 2021-04-05 15:47:55 · 1376 阅读 · 1 评论 -
【2019全国职业技能大赛大数据技术】任务三:5-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】2、 对于数据集字段缺失情况,通常可以采用填充默认值、均值、众数、KNN 填充、以及把缺失值作为新的 label 等方式处理。同时,不当的填充可能会令后续的分析结果出现导向性偏差,当缺失信息较少时可采用删除的方式来进行处理。下面请根据题目具体参数要求处理关键字段缺失,截图并保存结果。详细描述: 数据源使用 HDFS 文件系统中的 hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask2。...原创 2021-04-05 14:45:21 · 1349 阅读 · 1 评论 -
【2019全国职业技能大赛大数据技术】任务三:4-数据清洗与分析(25分_题目+答案<图片+分值>)
【题目】 现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。 hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集,其中包含了来自不同城市中多家酒店的销售信息,你的小组需要通过编写...原创 2021-04-05 14:36:06 · 2884 阅读 · 5 评论 -
2019 年全国职业院校技能大赛GZ-2019032 大数据技术与应用(高职组)赛题库
2019 年全国职业院校技能大赛GZ-2019032 大数据技术与应用(高职组)赛题库目录任务一:Hadoop 平台及组件的部署管理一、 Hadoop 全分布部署二、 Hadoop 伪分布部署三、 Hadoop HA 部署四、 Hive 组件部署五、 Sqoop 组件部署六、 Hbase 组件部署七、 Flume 组件部署八、 Spark 组件部署九、 Kafka 组件部署十、 Storm 组件安装部署十一、 Zookeeper 集群部署任务二:数据采集一、 数据源 1(交通运原创 2021-03-31 14:51:53 · 3175 阅读 · 6 评论 -
【2019全国职业技能大赛大数据技术】任务二:3-数据采集(20分_答案<图片+分值>)
1、 使用 chrome 浏览器,查找网站异步请求的数据,在计算机桌面“GZ-032 竞赛文档”文件夹“XXX-02.docx(XXX 代表赛位号、02 代表任务二)”文件中创建并编写完成下表:(2 分)参考答案见下表:网页源码对应字段每个字段一致得 0.5 分;内容 网页源码对应字段 酒店评分 grade 酒店名称 hotel_name 酒店星级 star_level 用户点评数 num_comment 2、 完善 hotelscrawl.py 中内原创 2021-03-30 19:47:46 · 1835 阅读 · 1 评论 -
【2019全国职业技能大赛大数据技术】任务二:3-数据采集(20分_题目)
虚拟机 MySQL 数据库账号/ 密码 :root/Password123$具体任务要求:1、 使用 chrome 浏览器,查找网站异步请求的数据,在计算机桌面“GZ-032 竞赛文档”文件夹“XXX-02.docx(XXX 代表赛位号、02 代表任务二)”文件中创建并编写完成下表:内容 网页源码对应字段 酒店评分 酒店名称 酒店星级 用户点评数 (示例表)内容 网页源码对应字段 北京 Province 中国...原创 2021-03-30 19:15:57 · 972 阅读 · 0 评论 -
【2019全国职业技能大赛大数据技术】任务一:Hadoop 相关组件安装部署(15分_答案下<图片+分值>)
二、 Sqoop 组件部署1、 解压/h3cu 路径下的 Sqoop 安装包到/usr/local/src 路径下,并使用相关命令,修改解压后文件夹名为 sqoop,进入 sqoop 文件夹,并将查看内容截图;(0.5 分)参考答案截图: 红框区域 一致得 得 0.5 分 ;2、 修改 Sqoop 环境变量,并使环境变量只对当前 root 用户生效;1) 修改基于当前用户 root 的环境变量,将环境变量配置内容截图并保存。(0.5 分)参考答案截图: 红框区域 一致得 得 0.5 分 ;3原创 2021-03-30 18:10:16 · 1116 阅读 · 2 评论 -
【2019全国职业技能大赛大数据技术】任务一:Hadoop 相关组件安装部署(15分_答案上<图片+分值>)
叮咚,我回来啦~!!“博主,你再不更新答案,我们要取关了哈!!”ahhhh我好怕【擦汗ing】,在此向等待更新的小伙伴表示歉意啦【真挚ing】,看过我上一篇文章的朋友都在期待答案【2019全国职业技能大赛大数据技术】任务一:1-Hadoop 相关组件安装部署(上),但因为个人行程安排+忙+懒?,所以到现在才更新,不好意思,让大家久等了,Thanks♪(・ω・)ノ感谢一路来的支持,小女子任继续加油,好啦,废话不多说我们来对对答案吧!!冲!任务一:Hadoop 相关组件安装部署(15 分 )一原创 2021-03-30 15:47:21 · 4085 阅读 · 3 评论 -
【2019全国职业技能大赛大数据技术】任务一:2- Sqoop 组件部署(15分_题目下)
本环节需要使用 root 用户完成相关配置,已安装 Hadoop 及需要配置前置环 境,具体部署要求如下: 1、 解压/h3cu 路径下的 Sqoop 安装包到/usr/local/src 路径下,并使用相关命令, 修改解压后文件夹名为 sqoop,进入 sqoop 文件夹,并将查看内容截图。 2、 修改 Sqoop 环境变量,并使环境变量只对当前 root 用户生效。2019 年全国职业院校技能大赛高职组“大数据技术与应用”赛项任务书说明手册 具体任务要求: 1) 修改基于当前用.原创 2020-11-21 20:45:21 · 1243 阅读 · 1 评论 -
【2019全国职业技能大赛大数据技术】任务一:1-Hadoop 相关组件安装部署(15分_题目上)
前言:此博客专栏:一个陆续更新有关【‘全国职业技能大赛“大数据应用技术”】的专题,谢谢大家的支持,建议收藏以防迷路,加油共勉!环境要求: 编号 主机名 类型 用户 密码 1 master 主节点 root passwd 2 slave1 从节点 root passwd 3 slave2 从节点 root passwd 一、 Hadoop 部署 本环节需要使用 roo.原创 2020-11-21 20:40:26 · 2890 阅读 · 24 评论 -
Echarts:【2019全国职业技能大赛大数据技术】任务四-可视化:1-指定地区的酒店出租率(折线图)
option = { title:{ text:'指定地区的酒店出租率', textStyle:{ fontStyle:'italic', color:'red' }, left:'center' }, xAxis: { name:'区域', type: 'category', data: ['华东地区', '华南地区', '华中地区', '华北地.原创 2020-11-10 09:47:22 · 1145 阅读 · 1 评论 -
Echarts:【2019全国职业技能大赛大数据技术】任务四-可视化:2-为各省份酒店综合情况(多线雷达图)
知识点笔记:textStyle: { color: 'red', //设置字体颜色 fontStyle:'italic', //设置斜体 fontWeight:'bolder' ///设置字体加粗(粗体) }, left: 'center', // 显示居中 top: 'top', //显示在图表上边(默认)// bottm:显示在图表下边option = { titl...原创 2020-11-10 10:00:00 · 798 阅读 · 0 评论 -
Echarts:【2019全国职业技能大赛大数据技术】任务四-可视化:3-酒店直销、分销订单及比率(堆叠柱状图)
赛题:(后期更新)知识点清单:stack: '总量', //设置堆叠在一起label: { show: true, //显示值 position: 'insideRight' //靠柱体的右边显示 },option = { title:{ text: '酒店直销、分销订单及比率', textStyle:{ color:'red', ...原创 2020-11-10 10:15:21 · 933 阅读 · 3 评论