![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadopp
Big_moneyes
稳重一点
展开
-
Spark基本介绍
一.Spark简介Spark使用scala语言实现的,它是一种面向对象,函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点。1.Spark与Hadoop差异Spark把中间数据放到内存中,迭代运算效率高。MapReduce中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而Spark支持DAG图的分布式并行计算的编程...原创 2019-12-03 10:59:49 · 1533 阅读 · 0 评论 -
Hbase工作原理
1.HBase介绍HBase是一种Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库。利用Hadoop HDFS存储HBase的数据文件,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为HBase分布式协同服务。主要用来存储非结构化和半结构化的松散数据。2.HBase数据模型RowKey TimeSta...原创 2019-12-03 10:47:56 · 210 阅读 · 0 评论 -
SparkCore
一.Spark编程模型1.术语定义应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor。驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program。执行单元(Executor): 是为某...原创 2019-12-03 10:43:04 · 104 阅读 · 0 评论