Spark
文章平均质量分 70
《Spark大数据处理技术》的读书笔记
Kevin在成长
这个作者很懒,什么都没留下…
展开
-
《Spark大数据处理技术》第二章Spark RDD及编程接口 读书笔记
Spark和MR的不同点: Spark提供了丰富的操作 MR只有Map和Reduce两个操作 2.1 Spark程序“Hello World” 存储在HDFS的Log文件中,计算出现过字符串"Hello World"的行数,假设Log文件存储在 hdfs://root/Log 代码 //对于所有的Spark程序,这是必须要做的第一步,创建一个Spark的上下文 //该步骤程序会向集群申请资源以及构建相应的运行环境 SparkContext(参数1,参数2,参数3,参数4) 第一个变量:当前程序运行的原创 2021-02-04 20:20:13 · 192 阅读 · 0 评论 -
《Spark大数据处理技术》第一章Spark系统概述 读书笔记
1.1 大数据处理框架 集群环境给编程带来的挑战: 并行化:并行化的方式重写应用程序,为了利用更大范围节点的计算能力 单节点失败的处理 集群环境一般是被多个用户分享,动态的分配计算资源 针对集群环境出现了大量的大数据编程框架,比如MapReduce:简单通用,自动容错,批处理计算模型。缺点:不适合交互式和流式计算,因为MR不能实现在并行计算的各个阶段进行有效的数据共享! 1.2 Spark大数据处理框架 针对MR不能进行数据共享,提出RDD概念:一种新的抽象的弹性数据集; Spark不严谨的可以视为:原创 2021-02-04 20:12:02 · 169 阅读 · 0 评论