大数据技术栈
文章平均质量分 93
数据开发,数据分析技术栈
i豆
喜欢搞点事
展开
-
第五章 多范式的编程语言Scala
第五章 多范式的编程语言Scala1. Scala入门1.1 Scala概述1.1.1 为什么学习ScalaSpark—新一代内存级大数据计算框架, 是大数据的重要内容Spark就是使用Scala编写的Spark的兴起, 带动Scala语言的发展1.1.2 Scala发展历史联邦理工学院的马丁·奥德斯基(Martin Odersky) 于2001年开始设计Scala。马丁·奥德斯基是编译器及编程的狂热爱好者, 长时间的编程之后, 希望发明一种语言, 能够让写程序这样的基础工作变得高效,原创 2022-05-24 18:42:30 · 593 阅读 · 0 评论 -
第四章 非关系型分布式数据库HBase
第四章 非关系型分布式数据库HBase本篇简单介绍了HBase,和它的使用场景,产品定位,以及数据库的一些数据存储知识, keyvalue,接着从服务分别介绍了RegionServer, HMaster, Zookeeper,HBase的数据写入和读取流程。1. HBase简介HBase是一个高可靠,高性能,面向列,可伸缩的分布式存储系统。适合存储大表数据(表的规模达数十亿行以及数百万列),并且读写访问可达实时级别BigTable 是一个疏松的分布式的持久的多维排序的map,这个map有行健原创 2022-05-23 15:06:26 · 562 阅读 · 0 评论 -
第三章 MapReduce与Yarn
第三章 MapReduce与Yarn本章讲述大数据领域最著名的批处理与离线处理框架 MapReduce,包括原理,流程,使用场景;以及Hadoop集群中用于统一资源管理调度的组件 Yarn,包括定义,功能,与架构,HA方案和容错机制,以及利用Yarn进行资源调配的常见方法。1. MapReduce与Yarn基本介绍1.1 MapReduce概述MapReduce基于Google的MapReduce论文设计开发,基于分而治之的思想,用于大规模数据集(1TB以上)的并行计算和离线计算,特点如下:原创 2022-05-19 17:07:58 · 1284 阅读 · 0 评论 -
第二章 分布式服务框架Zookeeper
第二章 分布式服务框架Zookeeper1. Zookeeper概述Zookeeper 发布/订阅模式的分布式框架主要是用来解决分布式应用中经常遇到的一些数据管理问题,提高分布式,高可用的服务,协调能力。ZooKeeper的主要功能:统一配置管理统一命名服务分布式锁集群管理安全模式下Zookeeper依赖Kerberos和LdapServer进行安全认证,非安全模式下则不依赖于Kerberos和LdapServer。Zookeeper作为底层组件被广泛上层组件使用并依赖,如Kafka,原创 2022-05-17 20:41:15 · 408 阅读 · 0 评论 -
第一章 HDFS分布式文件系统
HDFS分布式文件系统HDFS是一种允许文件通过网络在多台主机上分享的文件系统,可以让多台机器上的多个用户分享文件和存储空间。HDFS只是分布式文件管理系统中的一种。文件系统:文件系统是一种存储和组织计算机数据的方法, 它使得对其访问和查找变得容易。文件名:在文件系统中,文件名是用于定位存储位置。元数据(Metadata):保存文件属性的数据,如文件名,文件长度, 文件所属用户组,文件存储位置等。数据块(Block):存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。原创 2022-05-16 18:12:20 · 1379 阅读 · 0 评论