Spark大作业

Spark大作业

一、目的

1、熟悉Linux系统、MySQL、Spark、HBase、Hive、Sqoop、R、Eclipse、IntelliJ Idea等系统和软件的安装和使用;
2、了解大数据处理的基本流程;
3、熟悉数据预处理方法;
4、熟悉在不同类型数据库之间进行数据相互导入导出;
5、熟悉使用R语言进行可视化分析;
6、熟悉使用Eclipse或IntelliJ Idea编写Java程序操作HBase数据库

二、要求

1、对文本文件形式的原始数据集进行预处理
2、把文本文件的数据集导入到数据仓库Hive中
3、对数据仓库Hive中的数据进行查询分析
4、使用Sqoop将数据从Hive导入MySQL
5、使用Sqoop将数据从MySQL导入HBase
6、使用HBase Java API把数据从本地导入到HBase中
7、使用R对MySQL中的数据进行可视化分析

三、步骤

步骤一:本地数据集上传到数据仓库Hive

步骤二:Hive数据分析

步骤三:Hive、MySQL、HBase数据互导

步骤四:利用R进行数据可视化分析

1、分析消费者对商品的行为
在这里插入图片描述

2、分析哪一类商品被购买总量前十的商品和被购买总量
在这里插入图片描述

3、分析每年的哪个月份购买商品的量最多
在这里插入图片描述
4、分析国内哪个省份的消费者最有购买欲望
在这里插入图片描述

大作业报告及数据集

spark大作业

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百里 Jess

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值