- 博客(4)
- 收藏
- 关注
原创 分布式SQL计算Hive实操
1.基于 Hash 算法, Hash 算法是一种数据加密算法,对值进行计算,注意同一个值得到同样的结果。2.分桶表对分桶字段值 hash 结果进行取模(除以桶数量得到余数),取模结果一样的放到同一个桶文件。提升查询的效率(减少在桶内数据的扫描量)、降低 I / O 开销、特定索引的支持。3.同样分桶列的值的数据,会在同一个桶中。对桶内的数据根据指定的字段列表进行排序。通过多人协作来实现最终的可视化构建。支持各种常见的分析图标和各种数据源。表的数据存储文件夹中(没有分区)表指定分区的文件夹中(带有分区)
2024-04-25 22:06:00 371 3
原创 分布式SQL计算Hive实操
数据库:是存储没有经过任何加工的原始数据的,通过数据库软件实现。数据库有很多表组成,每张表里面又有很多字段,因此能够通过表的二维来表现三维的关系。数据仓库:是为了满足数据分析需要设计的,存储的是经过 ETL 过程的数据,能够反映相当长一段时间内的历史数据内容,是不同时间点数据库快照的集合。2.数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。4.数据库是为捕获数据而设计,数据仓库是为分析数据而设计。1.数据库是面向事务的设计,数据仓库是面向主题设计的。UPDATE ﹣更新数据库中的数据。
2024-04-24 21:17:38 470
原创 对Hadoop入门知识的理解总结
Apache Hive是一款分布式SQL计算的工具,其主要功能是将SQL语句 翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算的能力写的是SOL、执行的是MapReduce。
2024-04-23 15:22:30 178 2
原创 大数据hadoop入门学习
1.概念:分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事2.集群3.分布式与集群的区别:分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。
2024-04-22 21:56:21 437 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人