自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 分布式SQL计算Hive实操

1.基于 Hash 算法, Hash 算法是一种数据加密算法,对值进行计算,注意同一个值得到同样的结果。2.分桶表对分桶字段值 hash 结果进行取模(除以桶数量得到余数),取模结果一样的放到同一个桶文件。提升查询的效率(减少在桶内数据的扫描量)、降低 I / O 开销、特定索引的支持。3.同样分桶列的值的数据,会在同一个桶中。对桶内的数据根据指定的字段列表进行排序。通过多人协作来实现最终的可视化构建。支持各种常见的分析图标和各种数据源。表的数据存储文件夹中(没有分区)表指定分区的文件夹中(带有分区)

2024-04-25 22:06:00 371 3

原创 分布式SQL计算Hive实操

数据库:是存储没有经过任何加工的原始数据的,通过数据库软件实现。数据库有很多表组成,每张表里面又有很多字段,因此能够通过表的二维来表现三维的关系。数据仓库:是为了满足数据分析需要设计的,存储的是经过 ETL 过程的数据,能够反映相当长一段时间内的历史数据内容,是不同时间点数据库快照的集合。2.数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。4.数据库是为捕获数据而设计,数据仓库是为分析数据而设计。1.数据库是面向事务的设计,数据仓库是面向主题设计的。UPDATE ﹣更新数据库中的数据。

2024-04-24 21:17:38 470

原创 对Hadoop入门知识的理解总结

Apache Hive是一款分布式SQL计算的工具,其主要功能是将SQL语句 翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算的能力写的是SOL、执行的是MapReduce。

2024-04-23 15:22:30 178 2

原创 大数据hadoop入门学习

1.概念:分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事2.集群3.分布式与集群的区别:分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。

2024-04-22 21:56:21 437 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除