- 博客(5)
- 收藏
- 关注
原创 大数据平台
开源大数据技术2006年诞生大数据组件:担任某个数据任务的软件 分类:数据接入组件、数据落地组件、数据计算组件、数据存储组件、展示组件、调度组件把承担不同数据功能的组件串起来,完成某些业务功能的软件组合就叫大数据平台最早的开源大数据平台:hadoop hadoop的技术组件:HDFS、mapreduce、yarn、hbase、hive、zookeeper等组件很多,以及每个组件内部又存在多个版本,想要完美组合起来,构成一个企业级的大数据平台使用者,需要先考虑2个问题 一是组件
2022-10-26 19:59:32 416
原创 数仓,大数据平台,数据中台,数据湖
数据湖:狭义的概念:数据湖存储,存放各种格式的海量数据的地方广义的概念:除了数据存储之外,还包含数据的分析和管理,提供数据目录,数据服务以及统一的数据访问方式普通数据库特点:数据量小,数据保存时间短,支持ACID,及时性高,以业务线为单位进行建设普通数仓特点:企业级,保存时间长,分析需求量大大数据平台特点:架构复杂,开放源码,软件免费,超大数据量,全量分析,流批一体数据中台:支持功能更多,包容数据量更大、能承载更多数据需求的大数据平台数据湖:兼容更多的数据源类型,数据计算类型,数
2022-08-04 23:20:50 570
原创 可不可以只要reduce不要map ?
大数据技术的核心思想是分治;分布式计算引擎的核心思想是分治+规约;分治和规约体现在mapreduce 框架中,就是map +reducemap是对一份大的数据集,切成小份后各个击破,里面封装着对每一条数据的处理逻辑,对于一些简单的应用来说把每一条数据转化成为想要的样子,就可以直接输出,不需要reduce 过程但是,每条数据之间有交集,需要做聚合汇总,就必须有reduce 阶段reduce本质上是reduce By Key,将有相同Key的数据进行合并,在map 到reduce 的中.
2022-08-03 22:34:50 629
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人