需求分析
随着科技的发展越来越快,人们每时每刻产生的数据量也呈现指数级的增长趋势,为了更好的为人们服务。这就要求我们能够对网站用户行为进行数据分析,找到网站服务的倾重点,这样后期就可以更好地服务各个地区的消费者。
实验环境准备
1、首先启动Hadoop集群
2、其次启动Hbase集群
3、最后查看节点进程个数,验证是否启动成功
数据上传到数仓库Hive
1、首先在指定的位置创建相应的文件夹,作为存储数据集的位置
2、将提供的数据下载,并解压到刚才创建的指定文件夹内
3、之后对数据集进行预处理,首先去除数据集的标题行
4、之后编写相应的shell脚本对数据集进行规范化处理
该脚本可以将地址存储的哈希值转化为文字,便于观察后期对数据的处理。并且可以将数据每列之间用制表符相隔,使数据集更得更为规范化。
5、运行该脚本并查看运行结果
6、在HDFS上创建相应的文件夹,并将经过数据预处理的数据集上传上去
7、进入Hive,并在Hive中创建相应的数据库。并通过命令将HDFS中的数据直接导入到表当中
8、查看表格的内容,验证是否导入成功