Hive数仓建模测试——项目名称:微博数据分析

内容:数据建表、数据处理、数据分析

一、数据准备工作

在进行项目实验之前,需要启动hadoop集群以及hive

具体操作步骤如下:

cd data——ll——jps(查看hadoop集群),

如果没有启动,操作如下步骤:

start-all.sh

start-yarn.sh

start-dfs.sh

下一步进入hive:

cd /usr/software/apache-hive-2.3.3-bin/cd /usr/software/apache-hive-2.3.3-bin/

hive

页面如下:

下一步:把项目所需数据导入虚拟机中(直接拖进去就好啦,嘿嘿)

二:创建数据库

经分析可以看出,小文件都是由138开头的文件。可以使用Linux命令,将小文件合并。

create database weibo3;

use weibo3;

三:创建表并加载数据

创建ods层表,并将json数据加载到表中

create table ods_weibo_original(data string);

load data local inpath '/root/data/weibo/weibo.json' into table ods_weibo_original;

create table ods_login_user(data string);

load data local inpath '/root/data/user/user_login_info.json' into table ods_login_user;

四、清洗数据:将数据中的中括号进行去除。

create table ods_weibo_original_2

as

select substr(data,2,length(data)-2) weibo_data

from ods_weibo_original;

五、数据处理

创建hive表,表中只有一个字段。

create table ods_weibo_data(data string);

上传数据。

load data local inpath "/root/data/weibo/weibo2.json" into table ods_weibo_data;

创建关于微博的表。

create table dwd_weibo_data as

select

get_json_object(data,'$.beCommentWeiboId') beCommentWeiboId,

get_json_object(data,'$.beForwardWeiboId') beForwardWeiboId,

get_json_object(data,'$.catchTime') catchTim

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值