Spark原理及实战
文章平均质量分 76
zisheng_wang_DATA
这个作者很懒,什么都没留下…
展开
-
第000讲-Spark内核解密:Spark到底解决了什么根本性的技术问题?
1.Spark产生的具体技术环境 在spark出现之前,hadoop的迅速发展,hadoop分布式集群,把编程简化为自动提供 位置感知性调度,容错,以及负载均衡的一种模式,用户就可以在普通的PC机上运行超大集群运算,hadoop有一个非常大的问题:hadoop是基于流处理的,hadoop会从(物理存储)hdfs中加载数据,然后处理之后再返回给物理存储hdfs中,这样不断的读取与写入,占用了大量原创 2016-01-21 17:17:31 · 1213 阅读 · 0 评论 -
第001讲-Spark内核解密:Spark五大功能组件
一、Spark SQL SQL CoreSpark SQL的核心是把已有的RDD,带上Schema信息,然后注册成类似sql里的”Table”,对其进行sql查询。这里面主要分两部分,一是生成SchemaRD,二是执行查询。生成SchemaRDD如果是spark-hive项目,那么读取metadata信息作为Schema、读取hdfs上数据的过程交给Hive转载 2016-01-21 20:26:40 · 4545 阅读 · 0 评论 -
Spark-000讲:What is Spark ?
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。目前正朝着数据科学的OS发展。下面我们从以下三个方面,为大家彻底解密What is Spark?1.Spark生态原创 2016-04-27 22:53:15 · 5126 阅读 · 0 评论