自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 《Spark -- The Definitive Guide》学习笔记Note.4

  这一期开始,我们将要深入讨论Spark的结构化API,主要有DataFrame,SQL,Dataset,分享过程中若有错谬,欢迎拍砖。Part 2.Structured APIs——DataFrames,SQL,and DatasetsCharpter 4.Structured API Overview  这一部分将深入探讨Spark的结构化API。结构化API是处理各种数据类型的工具,从非结构化的日志文件,到半结构化的CSV文件,再到高度结构化的Parquet文件。结构化API一般指如下三种.

2022-02-28 17:35:34 1191

原创 《Spark -- The Definitive Guide》学习笔记Note.3

  上一篇分享,我们了解了一些关于Spark架构,应用程序,结构化API,核心概念的内容,有了这些作为基础,这期我们将对Spark工具集的相关内容进行译文和学习,分享过程中若有错谬,欢迎拍砖。Charpter 3.A Tour of Spark’s Toolset  在第一期分享中,有下述图例,事实上,除了低级API和结构化API,Spark还提供了一系列标准库来实现额外功能,比如图分析,机器学习,流处理,以及其他计算和存储系统的集成能力等。  本期分享的主要内容有:  1、spark-su.

2022-02-25 18:13:58 1249

原创 《Spark -- The Definitive Guide》学习笔记Note.2

  上一期中,通过翻译与凝练《Spark – The Definitive Guide》,我们初步解决了Spark是什么的问题,今天我们将继续学习Spark的基本架构,应用程序,结构化API,核心术语与概念,分享过程中若有错谬,欢迎拍砖。Charpter 2.A Gentle Introduction to SparkSpark’s Basic Architecture  一般而言,一台计算机就可以完成看电影,发邮件,制作电子表格等功能。但是诸如大数据处理这种富有挑战性的任务,单台机器往往是无法胜.

2022-02-23 10:00:30 966

原创 《Spark -- The Definitive Guide》学习笔记Note.1

  著名数学家华罗庚先生说过,“把薄书读厚,把厚书读薄”。厚书读薄是梳理脉络,让整体结构变清晰的过程。薄书读厚则要通过查证,思考,对原书内容加以扩增,甚至达到批驳书中知识点的程度。  博主自小偏爱文学类闲书一些,但由于职业原因,大部分能吊起的精力,是更需要主动投入在技术书籍上的,这就涉及到取舍“生存”和“生活”的哲学问题了,不多赘述。  喜欢安逸是人的天性,但为了更好地适应下一个技术周期,还是需要提前规划,主动跳出舒适区的,不进则退是从学生时代就存在的永恒话题。话不多说,有请主角登场。  力学笃行,

2022-02-21 18:27:53 655

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除