自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 如何解决PB级别数据计算问题?

移动计算比移动数据更划算

2022-10-26 21:10:30 765 1

原创 大数据平台

开源大数据技术2006年诞生大数据组件:担任某个数据任务的软件 分类:数据接入组件、数据落地组件、数据计算组件、数据存储组件、展示组件、调度组件把承担不同数据功能的组件串起来,完成某些业务功能的软件组合就叫大数据平台最早的开源大数据平台:hadoop hadoop的技术组件:HDFS、mapreduce、yarn、hbase、hive、zookeeper等组件很多,以及每个组件内部又存在多个版本,想要完美组合起来,构成一个企业级的大数据平台使用者,需要先考虑2个问题 一是组件

2022-10-26 19:59:32 416

原创 查看电脑host name

wins +CMD +hostname

2022-08-30 11:38:07 1060

原创 数仓,大数据平台,数据中台,数据湖

数据湖:狭义的概念:数据湖存储,存放各种格式的海量数据的地方广义的概念:除了数据存储之外,还包含数据的分析和管理,提供数据目录,数据服务以及统一的数据访问方式普通数据库特点:数据量小,数据保存时间短,支持ACID,及时性高,以业务线为单位进行建设普通数仓特点:企业级,保存时间长,分析需求量大大数据平台特点:架构复杂,开放源码,软件免费,超大数据量,全量分析,流批一体数据中台:支持功能更多,包容数据量更大、能承载更多数据需求的大数据平台数据湖:兼容更多的数据源类型,数据计算类型,数

2022-08-04 23:20:50 570

原创 可不可以只要reduce不要map ?

大数据技术的核心思想是分治;分布式计算引擎的核心思想是分治+规约;分治和规约体现在mapreduce 框架中,就是map +reducemap是对一份大的数据集,切成小份后各个击破,里面封装着对每一条数据的处理逻辑,对于一些简单的应用来说把每一条数据转化成为想要的样子,就可以直接输出,不需要reduce 过程但是,每条数据之间有交集,需要做聚合汇总,就必须有reduce 阶段reduce本质上是reduce By Key,将有相同Key的数据进行合并,在map 到reduce 的中.

2022-08-03 22:34:50 629

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除