hive
叫我小蟹
这个作者很懒,什么都没留下…
展开
-
测试用sql(用户连续活跃区间记录表)
需求:1.1、T-1日(10.11) 区间表create table act_range(guid string,first_dt string,rng_start string,rng_end string)partitioned by (dt string)row format delimited fields terminated by ',';1.2、数据vi rng.11a,2020-10-01,2020-10-01,2020-10-03原创 2020-10-13 21:27:19 · 511 阅读 · 0 评论 -
hiveserver2
1、先启动源数据库hive --server metastore2、再启动hiveserver2hiveserver23、启动beeline连接(hive的源数据库放在了mysql中)beelinebeeline> !connect jdbc:hive2://localhost:10000Enter username for jdbc:hive2://localhost:10000: rootEnter password for jdbc:hive2://localhost:10000原创 2020-10-11 20:27:37 · 218 阅读 · 0 评论 -
SparkSQL整合Hive与启动HiveServer2
一、Spark整合Hive:①SparkSQL兼容Hive的源数据库、兼容Hive的自定义函数、兼容Hive的序列化和反序列化。②可以用SparkSQL替代Hive或者将Hive的引擎由MapReduce换成SparkSQL。③启动SparkSQL必须是client模式,不能是cluster模式;启动SparkSQL时可以指定启动模式,错误示例如下:bin/spark-sql --deploy-mode cluster --master spark://linux02:7077 --driver-原创 2020-10-05 20:20:45 · 1921 阅读 · 0 评论 -
Hive知识点(一)详细网罗之---基础篇
1、hive概念:(1)hive是一个处理结构化数据的数仓工具;(2)用户可以在客户端上写HQL语句(是一种类SQL语句),hive将HQL语句转为MR程序,将maptask和reducetask提交到yarn上,分布式运行;(3)hive是一个工具,只需要在一台机器上安装,指定元数据位置等信息即可。2、hive处理数据的简易流程:(1)解析SQL语句;(2)优化SQL语句;(3)将SQL语句转化成MR逻辑;(4)读取数据;(5)找到元数据的位置;(6)加载元数据信息。注: ①元数原创 2020-09-03 20:58:32 · 260 阅读 · 0 评论 -
系统架构简析
1、存储系统:(1)HDFS:分布式存储系统,海量数据存储系统;以文件为单元;(2)MYSQL:数据库,存储业务表,快速,但有限;以行为单元;(3)HBASE:分布式列式存储的数据库;以文件为单元;可以实现CRUD,把数据存储在HDFS中;借助HDFS存储、管理数据;数据格式是hflie;特点:根据某一两个纬度进行查询时速度快,用rowkey主键查询时速度最快;但是索引层次不能太多,影响效率;不适合多纬度查询。(4)HIVE:用来处理结构化数据,流程:写SQL,统计报表,聚合,运算。不适合原创 2020-08-24 23:41:57 · 365 阅读 · 1 评论 -
hive安装(hive3.1.2与hadoop3.2.1版本冲突解决办法)
首先:正常启动HDFS、YARN和ZooKeeper1.安装mysql(安装教程在以前的博客中)2 查看mysql是否运行3、启动mysql服务,登录mysqlsystemctl start mysqldmysql -uroot -p4、可以配置mysql的开机自启服务(1)下面这两个设置以后 密码很简单不会报错mysql> set global validate_password_policy=0;mysql> set global validate_password_原创 2020-08-24 20:48:01 · 5070 阅读 · 3 评论