网站用户行为分析-Hadoop

需求分析

随着科技的发展越来越快,人们每时每刻产生的数据量也呈现指数级的增长趋势,为了更好的为人们服务。这就要求我们能够对网站用户行为进行数据分析,找到网站服务的倾重点,这样后期就可以更好地服务各个地区的消费者。

实验环境准备

1、首先启动Hadoop集群
在这里插入图片描述
2、其次启动Hbase集群
在这里插入图片描述
3、最后查看节点进程个数,验证是否启动成功
在这里插入图片描述

数据上传到数仓库Hive

1、首先在指定的位置创建相应的文件夹,作为存储数据集的位置
在这里插入图片描述
2、将提供的数据下载,并解压到刚才创建的指定文件夹内
在这里插入图片描述
3、之后对数据集进行预处理,首先去除数据集的标题行
在这里插入图片描述
4、之后编写相应的shell脚本对数据集进行规范化处理
在这里插入图片描述
该脚本可以将地址存储的哈希值转化为文字,便于观察后期对数据的处理。并且可以将数据每列之间用制表符相隔,使数据集更得更为规范化。
5、运行该脚本并查看运行结果
在这里插入图片描述
6、在HDFS上创建相应的文件夹,并将经过数据预处理的数据集上传上去
在这里插入图片描述
7、进入Hive,并在Hive中创建相应的数据库。并通过命令将HDFS中的数据直接导入到表当中
在这里插入图片描述
8、查看表格的内容,验证是否导入成功

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值