![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 67
Hadoop体系、Flink
Youth_C&B
专注Java,分布式,西安电子科技大学,任职京东、淘宝、华为
展开
-
Yarn笔记
Hadoop集群Yarn+HDFS 逻辑器上分离,物理上一起MapReduce计算框架 + Yarn资源调度框架MapReduce架构JobTrackerTaskTrackerYarnYarn架构Resource Manager调度算法:Fair Scheduler、Capacity SchedulerYarn进行资源分配的单位是容器(Container),每个容器包含了一定量的内存、CPU等计算资源应用程序管理器负责应用程序的提交、监控应用程序运行状态等,应用程序启动后需要在集群中原创 2022-05-21 00:13:15 · 125 阅读 · 0 评论 -
Spark
简介RDD的编程模型更简单,DAG切分的多阶段计算过程更快速,使用内存存储中间计算结果更高效以Spark为基础,有支持SQL语句的Spark-SQL,有支持流计算的Spark-Streaming,有支持机器学习的MLlib,还有支持图计算的GraphX。利用这些产品,Spark技术栈支撑起大数据分析、大数据机器学习等各种大数据应用场景。RDD弹性数据集(Resilient Distributed Datasets)是Spark的核心概念,大规模数据集合抽象成一个RDD对象,然后在这个RDD上进行各种计原创 2022-05-21 00:12:54 · 80 阅读 · 0 评论 -
大数据SQL引擎
Presto的整体架构Presto CLIPresto CoordinatorPresto Worker元数据 存储在Hive中,Metastore中 CatalogImpala SQL的解析引擎, 不依赖MR,依赖Hive中的元数据,编译为执行计划树,省去了大量的shuffle的尽可能使用内存,底层使用C++代码来执行,不支持UDFImpala不依赖Yarn进行调度Google 新三驾马车 (Caffeine – 网络搜索引擎,Pregel – 分布式图计算, Dremel –原创 2022-05-21 00:11:57 · 179 阅读 · 0 评论 -
分布式文件系统
原生HDFS架构HDFS采用master/slave架构master 采用主备架构,使用zk选主,称为NameNode,NameNode存储文件对应的元数据,通过元数据可以从DataNode上找到对应的Block,从而形成文件slave中数据多副本策略,称为DataNode,中存储这Block块NameNodeNN路径表示 /users/sameerp/data/part-0,r:3,{2,4,5}操作日志:所有操作 append 到EditLog文件中,NN通过重放EditLog中所有原创 2022-05-20 22:15:44 · 446 阅读 · 0 评论 -
ElasticSearch
ELK组件Kibana {数据可视化} 页面ElasticSearch{数据存储和检索引擎} 数据库LogStash{数据处理引擎} 处理应用Beats{采集一切数据} AgentElasticSearch分布式、多用户、全文搜索引擎、Java开发基本概念indextypedocumentES Cluster概念:shard:分片replica:副本存储过程:shard=Hash(routing)%shard_number,找到对应的shard,根据原创 2022-05-20 22:12:19 · 81 阅读 · 0 评论 -
BigData导论
大数据导论原创 2022-05-20 22:06:59 · 623 阅读 · 0 评论 -
Alluxio代码结构
Alluxio原创 2022-05-20 22:02:00 · 237 阅读 · 0 评论