OLAP
文章平均质量分 67
包含常用的 OLAP 数据库,如:Hive、ClickHouse、impala、Druid、Kylin等
bmyyyyyy
来一JAY个
展开
-
【Hive-基础】HiveSql 连接查询【inner join、left join、right join、full join、union all、union】
返回能匹配上的匹配结果,没匹配上的显示 NULL;,返回能匹配上的匹配结果,没匹配上的显示 NULL;应用:取出表1中存在,表2中不存在的项。1、连接 2 个表,取出公共部分。4、连接前注意去重,提高效率。3、on后连接条件键值唯一。right join:以。left join:以。并列将2个表的信息展示。5、inner可省略。1、字段名称必须一致。2、字段顺序必须一致。原创 2024-01-30 20:38:51 · 745 阅读 · 1 评论 -
【ClickHouse-Sql】ClickHouse 类型转换用法介绍
Clickhouse 作为一个专用于大数据分析的数据库,数据类型转换是其数据处理功能非常重要的一部分。类型转换可以将一个数据类型转换为另一个数据类型,以便于进行统计、计算和分析。在数据处理中,类型转换的准确性和效率决定了大数据分析的结果是否准确和实时,因此,类型转换是非常重要的。Clickhouse 作为一个专用于大数据分析的数据库,类型转换功能非常重要。在实际应用中,需要根据具体的业务场景选择合适的类型转换函数,以提高数据转换的效率与准确性。原创 2024-01-29 16:26:54 · 3331 阅读 · 0 评论 -
【ClickHouse-Sql】ClickHouse 常用 Sql(创建集群表、删除分区、条件删除、随机分群、修改表名、计算数据存储量等)
ClickHouse 有本地表,集群表的概念,本地表就是每台节点的表(存储整个集群数据的一部分),集群表可以看成是一个视图。(2)集群表(cluster)(1)本地表(local)【ClickHouse-Sql】ClickHouse 常用 Sql(创建集群表、删除分区、条件删除、随机分群、修改表名、计算数据存储量等)原创 2024-01-29 16:26:35 · 1026 阅读 · 0 评论 -
【ClickHouse-Sql】ClickHouse 时间日期函数
【代码】【ClickHouse-Sql】ClickHouse 时间日期函数。原创 2024-01-27 09:30:00 · 2845 阅读 · 0 评论 -
【Hive-Sql】Hive 处理 13 位时间戳得到年月日时分秒(北京时间)
【代码】【Hive-Sql】Hive 处理 13 位时间戳得到年月日时分秒(北京时间)原创 2023-12-19 10:43:39 · 2052 阅读 · 0 评论 -
【Hive-Exception】return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskHIVE
【Hive-Exception】return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskHIVEError: Error while processing statement: Cannot modifyhive.msck.path.validation at runtime. It is not in list of params thatare allowed to be modified at runtime (state=42000,c原创 2023-09-05 16:23:59 · 755 阅读 · 0 评论 -
【Hive-Hive函数大全】Hive函数的语法使用和举例描述
比如,M 是值为{‘f’ -> ‘foo’, ‘b’ -> ‘bar’, ‘all’ -> ‘foobar’}的 map 类型,那么 M[‘all’]将会返回’foobar’说明:count(*)统计检索出的行的个数,包括 NULL 值的行;比如,A 是个值为[‘foo’, ‘bar’]的数组类型,那么 A[0]将返回’foo’,而 A[1]将返回’bar’partToExtract 的有效值为:HOST, PATH,QUERY,REF,PROTOCOL,AUTHORITY,FILE,USERINFO。原创 2023-03-03 15:10:44 · 1067 阅读 · 0 评论 -
【Hive-Partition】Hive添加分区及修改分区location
当我们在 Hive 中创建外表时,需要映射 HDFS 路径,数据落入到 HDFS 上时,我们在 Hive 中查询时会发现 HDFS中有数据,Hive 没有数据,那是因为我们在 HDFS 上的数据还没有成功修复至 Hive中,需要进行分区的修复(或者称之为添加分区)原创 2023-07-04 14:36:38 · 2640 阅读 · 0 评论 -
【Hive-原理说明】数仓原理 & Hive说明
hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析(离线分析)原创 2020-12-25 16:01:06 · 298 阅读 · 0 评论 -
【Hive-SQL】Hive Select 选择语句排除一列或多列
【Hive-SQL】Hive Select 选择语句排除一列或多列原创 2023-09-05 16:56:57 · 1261 阅读 · 0 评论 -
【Hive-优化】Hive的优化方式三(索引优化)
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下,分桶和索引常常是优于分区的。而分桶由于SMB Join对关联键要求严格,所以并不是总能生效。原创 2023-02-27 11:08:21 · 467 阅读 · 0 评论 -
【Hive-基础】表数据的导出、导入(HDFS、本地)
并且后边跟 select 语句时,select 之前不能加 as,加了 as 会报错,一定要跟下面的 as select 区分开。export 和 import 主要用于两个 Hadoop 平台集群之间 Hive 表迁移,不能直接导出的本地。:表示从本地加载数据到hive表;(overwrite会把之前的数据文件删除,在把新的数据文件传上去)插入select的表,的字段、类型要匹配,否则报错。:表示覆盖表中已有数据,否则表示追加。(3)加载数据覆盖表中已有的数据。:表示加载数据的路径。原创 2024-01-19 15:28:24 · 1388 阅读 · 0 评论 -
【Hive-优化】Hive的优化方式一(通过ClouderaManager进行参数优化)
CDH支持的引擎一共有两个 一个是MR,另一个是Spark,但是Spark不一定比MR快,因为经历了Hive2.0的版本和Hadoop3.0的版本后,MR的性能已经得到了大幅度的提升,如果要配置配置如下即可。Hive的默认查询执行引擎一次处理一行,而矢量化查询执行是一种Hive特性,目的是按照每批1024行读取数据,并且一次性对整个记录整合(而不是对单条记录)应用操作。因为我们使用的是hive2.0.0的版本,Hadoop3.0的版本,新版本在对于JVM重用方面进行了优化,所以在这里不用配置了。原创 2020-12-25 16:25:26 · 1440 阅读 · 0 评论 -
【Hive-优化】Hive的优化方式二(分桶优化)
写入数据强制分桶#写入数据强制排序#开启bucketmapjoin#开启SMB Join(2)下面的都已经默认开启了,所以无需配置1、开启MapJoin的配置(和)还有限制对桶表进行load操作()可以直接设置在hive的配置项中,无需在sql中声明。2、自动尝试SMB联接()也可以在设置中进行提前配置。原创 2023-02-26 22:50:47 · 759 阅读 · 0 评论 -
【Hive-Hive写入数据压测】使用hive-testbench对Hive的写入数据进行压测
在对Hive的语法及性能进行测试时,需要构造大量数据,我们可以使用生产指定数据量大小的数据。提供了两种基准测试的数据生成器和示例查询(我们使用TPC-DSTPC-DS:提供一个公平和诚实的业务和数据模型,99个案例。TPC-H:面向商品零售业的决策支持系统测试基准,定义了8张表,22个查询。(1)TPC-DS简介1、 TPC-DS采用星型雪花型等多维数据模式。2、TPC-DS包含7张事实表17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询。【Hive-Hive写入数据压测】使用hive-tes原创 2023-03-11 12:51:16 · 1426 阅读 · 1 评论 -
【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并
【代码】【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并。这里我们直接用实例来讲解,Hive外部分区表有单分区多分区的不同情况,这里我们针对不同情况进行不同的方式处理。原创 2023-09-05 16:50:51 · 1386 阅读 · 0 评论 -
【Hive-优化】Hive的优化方式四(数据倾斜优化)
1、对于skewjoin.key,在执行job时,将它们存入临时的HDFS目录,其它数据正常执行。2、对倾斜数据开启map join操作(多个map并行处理),对非倾斜值采取普通join操作。操作是否支持倾斜数据的负载均衡处理。开启skewin以后,究竟多大的数据才会被认为是倾斜了的数据呢?如果数据量很大或者出现了数据倾斜比较严重的情况,如何来优化呢?应用了表连接倾斜优化以后,会在执行计划中插入一个新的。中存储的有数据倾斜信息时,才能生效。操作,并输出结果,这样处理的结果是。阶段的执行时间,提升总体性能。原创 2023-02-27 11:38:05 · 931 阅读 · 0 评论