自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 hive入门学习

数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。如字段的同名异义、异名同义、单位不统一、字长不一致等等。数据通常会分布在多个操作型系统中,彼此分散、独立、异构。数据仓库的数据反映的是一段相当长的时间内历史数据的内容。数据仓库的数据需要随着时间更新,以适应决策的需要。数据仓库是分析数据的平台,而不是创造数据的平台。统一与综合,对数据进行抽取、清理、转换和汇总。存储、分析、报告的数据系统。三、数据仓库的主要特征。插入、更新、删除、查询。

2023-07-14 15:31:31 57

原创 HDFS初步学习

狭义上Hadoop是Apache软件基金会的一款开源软件,用java语言实现,允许用户使用简单地编程模型实现跨机器集群对海量数据进行分布式计算处理Hadoop核心组件:Hadoop HDFS(分布式文件存储系统):解决海量数据存储Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度Hadoop MapReduce(分布式计算框架):解决海量数据计算广义上Hadoop是指微软Hadoop打造的大数据生态圈注意:谷歌三篇论文1.基于GFS2.分布式计算框架MR。

2023-01-15 13:49:07 298 3

原创 MapReduce&YARN

不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算。端无规则输出按指定规则“打乱”成具有一定规则的数据,以便于。将该应用分解成许多小的部分,分配给多台计算机进行处理。频繁涉及到数据在内存、磁盘之间的多次往复。分解为若干个“简单地子任务”来并行处理。--- shuffle 开始 ------ shuffle 结束 ---取得数据作为输入之前的过程称作。MapReduce分而治之。彼此之间没有依赖关系。

2023-01-14 17:04:01 263 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除