Hive
wuhanshilyj20220219
大数据开发
展开
-
Hive(2)和mysql的不同
什么是Hive: 基于Hadoop的一个数据仓库工具 ,可以将结构化的数据文件映射成为一张数据库表。 数据结构: 结构化的数据:字段个数一定,字段之间的分隔符一定 半结构化的数据:例如xml,json等 非结构化的数据:没有任何规律格式的数据 hive底层的数据存储都是使用HDFS,数据的统计计算都是使用的MapReduce, hive一些特点: 可扩展:扩展的是我们的hadoop集群 延展性:...原创 2019-04-25 21:07:01 · 502 阅读 · 0 评论 -
hive的安装之(使用mysql作为元数据信息存储)
网址对应的下载 下载之后上传到linux的主机 解压hive cd /export/softwares tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/ 直接启动 bin/hive cd …/servers/ cd hive-1.1.0-cdh5.14.0/ bin/hive hive> create database mytes...原创 2019-04-26 11:41:01 · 975 阅读 · 0 评论 -
hive使用方式
第一种交互方式:Hive交互shell cd /export/servers/hive-1.1.0-cdh5.14.0 bin/hive 查看所有的数据库 hive (default)> show databases; 创建一个数据库 hive (default)> create database myhive; 使用该数据库并创建数据库表 hive (default)> use...原创 2019-04-26 11:55:53 · 772 阅读 · 0 评论 -
网站流量模型(2)技术
网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤: 数据采集 数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。 关于具体含义要结合语境具体分析,明白语境中具体含义即可。 数据预处理 通过m...原创 2019-04-26 19:28:07 · 803 阅读 · 0 评论