
OLAP分析
文章平均质量分 77
......
研发咨询顾问
专注全栈开发和项目管理,诚接商务\业务合作,及问题难点解答和远程协助! 可私信或留言给作者,消息会在6小时内回复哦 (每篇文章末尾有作者名片,可添加联系,秒通过)
展开
-
分析引擎的区别对比(hive,Phoenix,impala,kylin,Druid,Presto)
需要预计算,将数据存储在druid的Segment文件中,占用一部分存储资源,对sql支持不友好,需要用他自己的方言书写。例如:Mysql等关系型数据库是基于二维表格的模型,kafka是基于消息队列的模型,Flink是基于流的模型,Spark是基于RDD的模型,Kylin有自己的数据模型吗?(3)kylin核心是cube数据,Cube是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。(4)kylin提前构建cube数据,将聚合得到的数据存储到HBase中、原创 2023-05-24 08:54:32 · 1154 阅读 · 0 评论 -
Druid+Presto+Kylin
第1章 Presto. 11.1 Presto简介... 11.1.1 Presto概念... 11.1.2 Presto架构... 21.1.3 Presto优缺点... 21.1.4 Presto、Impala性能比较... 21.2 Presto安装... 31.2.1 Presto Server安装... 31.2.2 Presto命令行Client安装... 51.2.3 Presto可视化Client安装... 51.3 Presto优化之数据存储... 71.3.1 合理设置分区... 71.原创 2023-05-24 08:51:57 · 315 阅读 · 0 评论 -
impala
第1章 Impala的基本概念... 11.1 什么是Impala. 11.2 Impala的优缺点... 21.3 Impala的组成... 21.4 Impala的运行原理... 3第2章 Impala的安装... 32.1 Impala的地址... 32.2 Impala的安装方式... 32.3 Impala 的监护管理... 62.4 Impala的初体验... 6第3章 Impala的操作命令... 73.1 Impala的外部shell 73.2 Impal原创 2023-05-23 09:58:16 · 173 阅读 · 0 评论 -
phoenix操作命令
命令只要涉及到表名和字段的命令,在输入的时候,表名和列名运行一律是转换成大写字母,所以要如果不想自动转换就要使用双引号括起来,表名(字段 integer not null primary key,字段 varchar);)注:字段和表一定要用双引号括起来,否则就在底层就转成大写字母, 注 视图是只读的。而且这里的varchar类似的数据是用单引号括起来的在。里面创建表,存储在HBase里面,但看的时候,表名(字段) values(值);(4)#在Phoenix查找数据。字段) from "表名";原创 2023-05-23 09:56:05 · 1439 阅读 · 0 评论 -
Phoenix介绍和搭建
其实,可以把Phoenix只看成一种代替HBase的语法的一个工具。虽然可以用java可以用jdbc来连接phoenix,然后操作HBase,但是在生产环境中,不可以用在OLTP中。在线事务处理的环境中,需要低延迟,而Phoenix在查询HBase时,虽然做了一些优化,但。)phoenix,操作的表及数据,存储在hbase上。虽然phoenix有hbase-site.xml,文件,但还是要覆盖,保证可以连接zookeeper,该文件里了所有节点信息。如果操作的节点不固定,那每一个节点都可以配置一下。原创 2023-05-23 09:54:14 · 1660 阅读 · 0 评论 -
hive企业级调优
关系型数据库中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。)行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,这样时间就比较长,总而言之,就是先where还是先join的执行顺序的问题,以下两种,进行这个限制的原因是,通常分区表都拥有非常大的数据集,而且数据增加迅速。原创 2023-05-23 09:54:22 · 180 阅读 · 0 评论 -
hive压缩和存储
查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时。每个字段的数据类型一定是相同的,列式存储可以针对性的。(3)但是存储文件的查询速度测试:要求有很大的数据,才可以做出比较,如果是小型数据,查询的速度差不多。)Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,(4)ORC和Parguet是不需要开启压缩的,它是自带压缩,但是压缩出来的文件是没有后缀名的。原创 2023-05-23 09:50:56 · 160 阅读 · 0 评论 -
hive函数
(3)UDTF(User-Defined Table-Generating Functions)一进多出:如lateral view explore();)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。(2)UDAF(User-Defined Aggregation Function):聚集函数,多进一出,类似于:count/max/min;排名是顺序的,相同的分数会有排名先后, 前3名只有3个。原创 2023-05-23 09:50:23 · 146 阅读 · 0 评论 -
hive数据类型
对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能 其中最多能存储多少个字符,理论上它可以存储2GB的字符数。是一组键-值对元组集合 ,列入children map,string表示key,int表示value,(2)注意 string也可以转换成double,这个比较特殊,不像java,一般不会这么使用。每个数组元素都有一个编号,编号从零开始。的原子数据类型是可以进行隐式转换的,类似于Java的类型转换,)导入文本数据到测试表。原创 2023-05-22 11:14:20 · 75 阅读 · 0 评论 -
hive介绍和部署使用(超级详细)
目前最先进的并行数据库。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特定条件的数据的访问,mysql数据库可以有很高的效率,较低的延迟。通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。另外,Hive也会读入Hadoop的配置,因为Hive是作为 Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。原创 2023-05-22 11:13:05 · 1152 阅读 · 1 评论