数据仓库hive、clickhouse
文章平均质量分 89
数据中台建设、数据仓库hive、clickhouse
猿来如此dj
目前西安工作-航天宏图公司大数据开发工程师,欢迎大家交流。
展开
-
clickhouse简介与实战
ClickHouse是一个用于联机分析(OLAP)的**列式数据库管理系统**(DBMS)。clickhouse以下简称CH。原创 2023-05-31 15:46:42 · 2187 阅读 · 1 评论 -
OLAP和OLTP
从产品上看,有专门面向OLTP的数据库,例如MySQL、PostgreSQL、Oracle等,也有专门面向OLAP的数据库,例如Hive、Greenplum、HBase、ClickHouse等。OLTP一般是基于三大范式进行数据库设计,所以查询时候会导致多表join关联查询,产生查询慢,不利于数据分析的问题。所以OLAP在设计时不是基于三大范式设计的,允许一定的冗余,基于数据仓库建模设计,为了更好的进行数据查询分析。4、对于读取,从数据库中提取相当多的行,但只提取列的一小部分。除了他以外,其他的都很小。原创 2023-05-31 11:23:14 · 2021 阅读 · 0 评论 -
数据中台及数据仓库设计
主题:即高层次的互不折叠的数据分类,用于管理其下一级的业务对象数据标准:基于公司或者一具体的业务线制定的需要公司共同遵守的属性层数据含义和业务规则,描述了公司对某个数据的共同理解,这些理解确定后就应该作为标准在企业内被共同遵守。数据仓库-ODS层:存储源数据的简单落地数据仓库-DWI层:又称为数据整合层,DWI层是对多个源系统数据的整合,清洗,基于数据建模三范式建模(个人理解属于从数据治理得来的数据)。数据仓库-DWR层:数据报告层,基于数据维度,和DWI层数据粒度基本保持一致。原创 2023-03-16 17:44:24 · 4583 阅读 · 0 评论 -
(一)hive权威指南学习
1:hive1.1:hive简介Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。Hive 只适合用来做海量离线数据统计分析,也就是数据仓库。1.2:架构原创 2020-11-14 11:14:06 · 496 阅读 · 0 评论 -
(二)hive数据库shell操作语句
hive 库和表操作1、库操作1.1.1、创建库语法结构:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, …)];创建库的使用方式:......原创 2019-04-27 13:53:07 · 1832 阅读 · 0 评论 -
(三)hive的内置函数
1、Hive 内置函数1、内容较多,见《Hive 官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF2、测试内置函数的快捷方式:第一种方式:直接使用,例如:select concat(‘a’,‘a’) aa第二种方式:1、创建一个 dual 表 create table dual(id s...原创 2019-04-27 12:02:46 · 352 阅读 · 0 评论 -
(四)hdfs,hbse,hive的区别
hdfs,hbse,hive的区别HDFS(Hadoop分布式文件系统):HDFS允许以分布式和冗余方式存储大量数据。HDFS组件• NameNode• DataNodeNameNode:NameNode可以被视为系统的管理者。它维护系统文件树以及系统中存在的所有文件和目录的元数据。其中“命名空间镜像(Namespace image)”和“编辑日志”用于存储元数据信息。 Namenode...原创 2019-04-29 14:53:22 · 4266 阅读 · 0 评论 -
(五)hive数据倾斜
hive数据倾斜以及处理hive常用语句mysql和hive的行列转换目录1,数据倾斜原因2,HQL中数据倾斜诱发场景3,数据倾斜处理4,hive数据倾斜优化1.数据倾斜原因A:key 分布不均匀 B:业务数据本身的特性 C:建表考虑不周全 D:某些 HQL 语句本身就存在数据倾斜2.HQL中数据倾斜诱发场景A、group by 不和聚集函数搭配使用的时...原创 2019-05-05 17:23:18 · 658 阅读 · 0 评论 -
(七)区别like和rlike
区别like和rlikehive的内置函数hive数据倾斜解决脚本中遇见rlike,特此区别一下like和rlikelike 支持通配符:eg:"%“代表多字符rlike支持的是正则表达式 :”.*"代表多字符LIKE语法格式为A [NOT] LIKE B,B是sql下的简单正则表达式,也叫通配符模式,如_匹配一个字符,%可以匹配任意多个字符,A会对表达式B做匹配,如果通过返回TRU...原创 2019-05-20 12:46:26 · 10831 阅读 · 0 评论 -
(六)hive优化详解
hive优化详解每个join基本都会触发一个reduce操作。1:多表关联优化:适用情况:多表进行关联时,所有表中只有一张表小表,此时将小表加载到内存,在map端完成连接过程,忽略了reduce操作,提高运行效率,提升20%左右性能。此时设置参数为true.开启此种优化,默认false。小表判断,默认<25M。但是不支持各种外连接使用此种优化!...原创 2019-05-28 21:13:38 · 443 阅读 · 1 评论 -
(八)hive报错问题汇总
1:hive在show databases报错hive> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql...原创 2019-03-20 09:40:30 · 2414 阅读 · 0 评论 -
(九:实战)hive的JDBC客户端java开发
(九:实战)hive的JDBC客户端java开发hive的客户端有多种方式进行开发,本次以JDBC举例,详情可以查看官网自行实战1:JDBC客户端public class HiveJdbcClient { private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; //hive的驱动 public static void main(String[] args) throws SQLExce原创 2020-11-24 11:49:19 · 283 阅读 · 0 评论 -
(十)hive面试指南
自定义UDF:继承UDF,重写evaluate方法自定义UDTF:继承GenericUDTF,重写3个方法,initialize(自定义输出的列名和类型),process(将结果返回forward(result)),close。原创 2022-11-21 16:55:39 · 249 阅读 · 0 评论