Spark缘起

最新推荐文章于 2022-09-16 22:47:30 发布

贾诩是也

最新推荐文章于 2022-09-16 22:47:30 发布

阅读量346

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/xiangxizhishi/article/details/75947745

版权

Spark 专栏收录该内容

103 篇文章 2 订阅

订阅专栏

   Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强 Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI…
Hadoop Roadmap 根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature 属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
Apache Hadoop Project Members
这个是hadoop project member and committee, 里面好多来自Hortonworks，也有不少国人上榜。
SparkSpark 介绍
Spark今年大放溢彩，Spark简单说就是内存计算（包含迭代式计算，DAG计算,流式计算）框架，之前MapReduce因效率低下大家经常嘲笑，而Spark的出现让大家很清新。
    Reynod 作为Spark核心开发者, 介绍Spark性能超Hadoop百倍，算法实现仅有其1/10或1/100
    浅谈Apache Spark的6个发光点
    Spark: Open Source Superstar Rewrites Future of Big Data
    Spark is a really big deal for big data, and Cloudera gets it
其实起名字也很重要，Spark就占了先机，CTO说Where There’s Spark There’s Fire: The State of Apache Spark in 2014
Spark 起源
2010年Berkeley AMPLab，发表在hotcloud 是一个从学术界到工业界的成功典范，也吸引了顶级VC：Andreessen Horowitz的注资
AMPLab这个实验室非常厉害，做大数据，云计算，跟工业界结合很紧密，之前就是他们做mesos，hadoop online, crowddb, Twitter，Linkedin等很多知名公司都喜欢从Berkeley找人，比如Twitter也专门开了门课程 Analyzing Big Data with Twitter 还有个BDAS (Bad Ass)引以为傲: The lab that created Spark wants to speed up everything, including cures for cancer
在2013年，这些大牛从Berkeley AMPLab出去成立了Databricks，半年就做了2次summit参会1000人，引无数Hadoop大佬尽折腰，大家看一下Summit的sponsor ，所有hadoop厂商全来了，并且各个技术公司也在巴结，cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身，要推出商业化产品Cloud。
Spark人物
    Ion Stoica: Berkeley教授，AMPLab 领军
    Matei Zaharia: 天才，MIT助理教授
    Reynold Xin Apache Spark开源社区的主导人物之一。他在UC Berkeley AMPLab进行博士学业期间参与了Spark的开发，并在Spark之上编写了Shark和GraphX两个开源框架。他和AMPLab同僚共同创建了Databricks公司
    Andy Konwinski
    Haoyuan Li
    Patrick Wendell
    Xiangrui Meng
    Paco Nathan
    Lian Cheng
    Hossein Falaki
    Mosharaf Chowdhury
    Zongheng Yang
    Yin Huai
    Committers
Spark基本概念
    RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集。
    Operation——作用于RDD的各种操作分为transformation和action。
    Job——作业，一个JOB包含多个RDD及作用于相应RDD上的各种operation。
    Stage——一个作业分为多个阶段。
    Partition——数据分区，一个RDD中的数据可以分成多个不同的区。
    DAG——Directed Acycle graph，有向无环图，反应RDD之间的依赖关系。
    Narrow dependency——窄依赖，子RDD依赖于父RDD中固定的data partition。
    Wide Dependency——宽依赖，子RDD对父RDD中的所有data partition都有依赖。
    Caching Managenment——缓存管理，对RDD的中间计算结果进行缓存管理以加快整体的处理速度。
目前还有一些子项目，比如 Spark SQL, Spark Streaming, MLLib, Graphx 工业界也引起广泛兴趣，国内Taobao, baidu也开始使用：Powered by Spark
Apache Spark支持4种分布式部署方式，分别是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWS
Spark Summit
    2014 Summit
    取代而非补充，Spark Summit 2014精彩回顾
    拥抱Spark，机遇无限——Spark Summit 2013精彩回顾
    Databricks Cloud Demo 今年最叫好的demo是Dtabricks Cloud, 把Twitter上面实时收集的数据做作为machine learning素材，用类似IPython notebook，可视化呈现惊艳，而搭建整个sampling系统就花了20分钟！
资料和视频
    官方文档
    Databricks Blog
    Summit Training
    Databricks upcoming training
    Stanford Spark Class
    CSDN Spark专栏
第三方项目
    Web interactive UI on Hadoop/Spark
    Spark on cassandra
    Spark Cassandra Connector
    Calliope
    H2O + Spark
    Shark - Hive and SQL on top of Spark
    MLbase - Machine Learning research project on top of Spark
    BlinkDB - a massively parallel, approximate query engine built on top of Shark and Spark
    GraphX - a graph processing & analytics framework on top of Spark (GraphX has been merged into Spark 0.9)
    Apache Mesos - Cluster management system that supports running Spark
    Tachyon - In memory storage system that supports running Spark
    Apache MRQL - A query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
    OpenDL - A deep learning algorithm library based on Spark framework. Just kick off.
    SparkR - R frontend for Spark
    Spark Job Server - REST interface for managing and submitting Spark jobs on the same cluster.
相关参考资料
    Resilient Distributed Datasets
    spark on yarn的技术挑战
    Hive原理与不足
    Impala/Hive现状分析与前景展望
    Apache Hadoop: How does Impala compare to Shark
    MapReduce：一个巨大的倒退
    Google Dremel 原理 — 如何能3秒分析1PB
    Isn’t Cloudera Impala doing the same job as Apache Drill incubator project?
    Shark
    Big Data Benchmark
    How does Impala compare to Shark
    EMC讲解Hawq SQL性能：左手Hive右手Impala
    Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark
    Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark
    Databricks – an interesting plan for Spark, Shark, and Spark SQL
    Apache Storm vs Spark Streaming
    Apache Spark源码走读

贾诩是也

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark缘起

Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强 Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI…Hadoop Roadmap 根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature 属于安全，稳定可靠性一方面是比较稳定了，
复制链接

扫一扫