【2019全国职业技能大赛大数据技术】任务三:4-数据清洗与分析(25分_题目+答案<图片+分值>)

【题目】

        现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的
情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
        hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集,其中包含了来自不同城市中多家酒店的销售信息,你的小组需要通过编写代码或脚本完成对文件 hoteldata.csv 中酒店销售管理数据的清洗和整理,并完成数据计算和分析任务。综合利用 MapReduce、Spark、Storm、分布式存储系统、数据仓库 Hive、数据推送工具等技术,使用 Java、Python 等开发语言,完成本阶段数据清洗、存储、转化、分析及数据推送等任务。通过多个维度分析酒店的销售信息,并以此评价酒店销售业绩、区域的游客接纳能力、接纳质量等指标。
        初始数据集来自多个网站及平台系统,且为多次采集汇总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析数据集 hoteldata,根据题目规定要求实现数据清洗及分析。

  1. 脱敏后的数据存放于 平台/h3cu/hoteldata.csv ;
  2. Spark maven 依赖 的 配置文件 样例 存放于 计算机 桌面/H3CU_hotel/spark_file ;
  3. 任务三 虚拟机账号/ 密码:hadoop/hadoop ; 虚拟机 MySQL 数据库 账号/密码:root/Password123$ ;
  4. 相关 jar 包 存放于 在 计算机 桌面/H3CU_hotel/jar 包 ;
  5. 本任务要求 使用的 编译 工具 为:IDEA 2019.1 (IntelliJ IDEA CommunityEdition 2019.1 x64) ) ;
  6. Jar 包可以 使用 XFTP 上传。

 1、 酒店销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据删失或截断。现有数据集中某个或某些属性的值是不完全的。对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。结合行业数据本身特点及上述考虑,请你根据题目具体参数要求实现以下功能:将缺失值大于 n 个的数据条目剔除原始数据集,并输出剔除的条目数量,截图并保存结果。
详细描述:
         数据源文件存放于平台/h3cu/hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask1。

  1. 解析/h3cu/hoteldata.csv;
  2. 将缺失值大于 n(n=3)个的数据条目剔除出原始数据集,并输出剔除的条目数量;
  3. 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask1。

具体任务要求:

  1. 将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;
  2. 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);
  3. 使 用 Hadoop shell 命 令 查 看 清 洗 后 输 出 的 结 果 文 件 总 行 数/hotelsparktask1,将运行结果截图并保存。

【答案】

1 、将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;(1分)
参考答案截图:红框区域结果一致得 1 分;


2) 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1分)
参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )


3) 使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1,将运行结果截图并保存;(1 分)
参考答案截图:红框区域结果一致得 1 分;

 

 

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

濯一一

你的鼓励:我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值