内容:数据建表、数据处理、数据分析
一、数据准备工作
在进行项目实验之前,需要启动hadoop集群以及hive
具体操作步骤如下:
cd data——ll——jps(查看hadoop集群),
如果没有启动,操作如下步骤:
start-all.sh
start-yarn.sh
start-dfs.sh
下一步进入hive:
cd /usr/software/apache-hive-2.3.3-bin/cd /usr/software/apache-hive-2.3.3-bin/
hive
页面如下:
下一步:把项目所需数据导入虚拟机中(直接拖进去就好啦,嘿嘿)
二:创建数据库
经分析可以看出,小文件都是由138开头的文件。可以使用Linux命令,将小文件合并。
create database weibo3;
use weibo3;
三:创建表并加载数据
创建ods层表,并将json数据加载到表中
create table ods_weibo_original(data string);
load data local inpath '/root/data/weibo/weibo.json' into table ods_weibo_original;
create table ods_login_user(data string);
load data local inpath '/root/data/user/user_login_info.json' into table ods_login_user;
四、清洗数据:将数据中的中括号进行去除。
create table ods_weibo_original_2
as
select substr(data,2,length(data)-2) weibo_data
from ods_weibo_original;
五、数据处理
创建hive表,表中只有一个字段。
create table ods_weibo_data(data string);
上传数据。
load data local inpath "/root/data/weibo/weibo2.json" into table ods_weibo_data;
创建关于微博的表。
create table dwd_weibo_data as
select
get_json_object(data,'$.beCommentWeiboId') beCommentWeiboId,
get_json_object(data,'$.beForwardWeiboId') beForwardWeiboId,
get_json_object(data,'$.catchTime') catchTim