大数据
文章平均质量分 92
简要介绍大数据的前世今生和用到的一些组件
临江蓑笠翁
前不见古人 后不见来者
展开
-
大数据-概览
最近由于工作变动,有非常多的关于大数据的知识。针对自己的学习过程进行一下记录,对自己也起到一个督促。针对大数据的来源、作用、价值、概念进行一些初步的了解,对其中一些术语进行介绍,为接下来的学习奠定一点基础。原创 2023-04-21 19:25:33 · 687 阅读 · 0 评论 -
大数据-三驾马车与hadoop起源
Google成立于1998年是全球最大的搜索引擎公司,主要业务为搜索、云计算、广告技术等,主要利润来自于广告等服务。在21世纪初互联网刚刚兴起,每个企业保存和生产的数据量并不大,已有的技术对数据的保存和处理完全满足业务上的需求。作为搜索引擎公司,google需要保存爬虫所获取的大量网页数据,还要对海量的数据进行快速的搜索、计算、排名等处理。原创 2023-04-25 10:41:24 · 970 阅读 · 0 评论 -
大数据-计算框架选型与对比
以上对大数据平台组成、计算框架需要提供哪些功能、常用计算框架对比。原创 2023-11-23 17:22:56 · 265 阅读 · 0 评论 -
Hadoop-HDFS架构与设计
硬件错误是比软件异常更容易出现的情况,HDFS由成千上百台廉价服务器组成、每个保存整个文件系统的部分数据。如果任意一台服务器出现硬件错误都会导致HDFS部分不可用,所以针对错误的快速检测和自动修复是HDFS框架需要解决核心问题。本文对Hadoop中的HDFS分布式文件系统的架构设计进行了解。hdfs采用常见的主从架构,由集中元数据存储Namenode和分散的数据存储Datanode节点组成,支持高可靠性高吞吐量的批量读取大文件海量数据。原创 2023-11-14 20:25:19 · 797 阅读 · 0 评论 -
Impala-架构与设计
Impala是一款基于Hive的大数据分析查询引擎,直接使用Hive的元数据Metastore,因此如果使用Impala需要先安装Hive并启动Metastore服务。Impala不依赖MapReduce而是将执行计划树进行并行计算,使用拉的方式获取结果数据,把结果数据按执行树流是传递汇集,减少中间结果落盘。Impala是大数据进行实时交互式分析查询的一个工具,没有依赖MapReduce执行任务,而是将任务分配到各个Impala节点进行计算和汇总,从而避免了MapReduce的启动时间。原创 2024-02-12 20:16:46 · 1338 阅读 · 0 评论 -
Hive-架构与设计
支持通过SQL对数据仓库中数据进行访问,比如提取、转化、加工、分析等支持将不同数据格式添加数据结构可以直接访问大数据存储系统中的文件,比如HDFS、HBase等Hive是一个基于Hadoop的数仓分析工具,将分布式系统中的数据映射成结构化数据。提供丰富的SQL查询方式对数仓中的数据进行访问。一般不会存储数据、只会保存元数据到Hive中。Hive根据元数据信息将查询语句转化成执行计划,此执行计划由stage组成的DAG图,调用Hadoop中的MapReduce运行执行计划得到对应结果。原创 2024-02-10 23:16:00 · 1792 阅读 · 2 评论 -
Kudu-架构与设计
Apache Kudu是由Cloudera开源的存储引擎,是一个满足随机读写、又支持OLAP分析的大数据存储引擎,同时避免上述组合架构缺点。Kudu是一个满足随机读写又满足大规模数据分析的大数据存储引擎,是HDFS和HBase两者性能的一个中和。一个引擎就可以满足之前需要HDFS和HBase两个组合的场景。架构采用极简模式没有引入其他组件,主要采用Raft进行协调,采用多副本保证可靠性。数据更新和修改时会在原有DiskRowSet中操作,并采用定期合并减少文件个数,提高读性能。原创 2023-12-11 11:37:47 · 1130 阅读 · 0 评论 -
HBase-架构与设计
HBase的底层存储引擎是基于LSM-Tree数据结构设计的,存储是基于HDFS。而针对数据的更新和删除,不是修改原有记录而是新增一条记录,这样可以充分发挥顺序写的性能,但是查询的时候就需要查询磁盘中的文件和内存中的操作,读取所有数据版本。因此HBase写性能比读性能提高了两个数量级。HBase是基于分布式文件系统HDFS构建的一个大数据、NoSQL、可拓展分布式数据库。采用Master/Slave架构、用Zookeeper进行元数据保存和协调工作。原创 2023-12-06 19:47:00 · 1299 阅读 · 0 评论 -
Flink-状态流与容错
主要介绍了flink算子分为有状态算子和无状态算子。状态存储实现一个是直接保存对象,另一个保存字节数组。容错机制主要是将实时流逻辑分段进行所有算子的状态保存和恢复来实现容错。原创 2023-12-04 15:48:15 · 1305 阅读 · 0 评论 -
Flink-时间流与水印
主要是对时间流和水印产生背景和作用进行了介绍,对窗口分类和窗口函数进行初步了解。原创 2023-11-29 19:22:07 · 1314 阅读 · 0 评论 -
Flink-执行拓扑图与作业调度
主要介绍Flink执行模式以及Flink作业提交过程中拓扑图的生产和优化,还有作业调度和其中涉及的数据结构。原创 2023-11-28 19:52:25 · 1402 阅读 · 0 评论 -
Flink-简介与基础
主要介绍了Flink背景和以流处理为主的设计理念,Flink的运行时架构、Flink作业的编程以及Flink的高级特性。原创 2023-11-24 15:51:10 · 1312 阅读 · 0 评论