spark笔记

最新推荐文章于 2022-12-30 10:22:38 发布

ylxjtu

最新推荐文章于 2022-12-30 10:22:38 发布

阅读量262

点赞数

原文：　点击打开链接

這篇文章的目的是讓想理解Spark 這高速運算核心概念的人看得

我會試著用自己的話讓大家理解
讓大家可以淺顯易懂的理解核心技術 RDD(Resilient Distributed Datasets)

---------------------------------------前言-----------------------------------------------------------------

首先先來看MapReduce 為我們做了什麼

MapReduce 成功的在大資料(Big Data)的分散式環境下分析運算資料

然而在某些運算或演算法執行下 MapReduce 就顯得不夠力

舉凡最著名的兩個場景

1.迭代式運算(Iterative Jobs) : 如:機器學習演算法, 分類演算法 (這類演算法要不斷執行同個步驟且每個步驟以上個結果為輸入)

2.交互式分析(Iterative Analyst) : 如:馬克霍夫矩陣 (求長遠時間之後的平衡狀態為何)

為什麼MapReduce不適合執行上述之場景呢?由下圖解釋

上圖敘述一般預設的狀態下 MapReduce 執行過程中必須將工作的結果存回HDFS中

但是在需要不斷運算的場景下 (像是要重複算上萬次得到結果) 這一來一往的I/O將十分龐大

原因其實是 MapReduce一開始就不是為了這些場景而去設計的自然會有這些問題

其實是我們的需求增加而產生這樣的問題

上述問題讓我發現MapReduce缺少一個重要的要素

有效的資料共享(efficient data sharing)

而Spark即提出一個能解決的問題的效果

In-Memory Data Processing and Sharing

若是能將中間運算結果直間存於Memory 中那自然就會快速許多

而要如何設計一個高容錯(tolerant) 高效能(efficient)的結構?

這是RDD的設計概念由來Resilient Distribute Datasets

---------------------------------------RDD介紹----------------------------------------------------

首先先看一下RDD長什麼樣子

Partition是資料分片可能會在不同的機器上

而RDD則是指一個資料分片的集合大多數情況都存於Memory中 (即一個RDD裡會有多個在不同機器上的partition)

照官方文件說法實際上一個RDD會有以上五樣東西

1.每個partition位置

2.與父RDD的依賴關西

3.父RDD經過何種運算得到此RDD的 (function)

以上三樣在RDD概念裡主要是為了實現血統關係(lineage) 主要是為了容錯而設計的在稍後的RDD容錯機制會詳細敘述

先來看看RDD是如何被使用來運算的

RDD有兩種運算方式

1.Transformations: 懶惰(lazy)運算會製造出新的RDD

2.Action: 執行一個運算並return結果或是存到Storage裡

以上列了相關運算是怎麼分的

以上是一個詳細的圖解運算過程中其實會不斷的產生新的RDD 最後在生成結果

Loading an RDD or performing a transformation on one does not　trigger any data processing; it merely creates a plan for performing a　computation. The computation is only triggered when an action (like　foreach()) is performed on an RDD.

所以整個RDD執行不外乎此圖

-----------------------------RDD容錯機制---------------------------------------------

清楚了RDD運算過程後

必須提到他是如何容錯的

場景如下

當有RDD遺失時

會根據前面提到的血統關係(lineage)來重新計算所需RDD

所以實際上Spark是沒有replication機制

但明顯的要是失去的RDD剛好是要計算出結果的1萬次運算的9999次怎麼辦?

那不是等於要重算嗎?

所以Spark還提供一個客製化的機制CheckPoint

由使用者自己設計儲存點在這點的RDD會存於Storage 以免遺失

所以實際上Spark經由lineage 與 CheckPoint來執行容錯

-------------------------------------------結論-------------------------------------------

Spark的核心技術是RDD

所以要了解Spark 要先理解RDD是如何設計的跟優勢為何

整個Spark的工作流程如下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄14年

5
原创

3
点赞

9
收藏

4
粉丝

关注

私信

热门文章

分类专栏

MFC 6篇
C++ 9篇
JAVA 12篇
sql 1篇

最新评论

并行计算（PPL）
ylxjtu: 并行就是同时处理，只要保证可以同时执行没有资源互斥就可以吧。我研究的不深
并行计算（PPL）
昊86: 并行计算，只能用在for循环里面吗？如果是一个复杂的函数流程，能否做并行计算呢？比如是一个图像处理的函数，里面有很多步骤。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。