Spark、Hadoop、HDFS简介

本文介绍了Spark作为大数据运算平台的核心功能,包括Spark Streaming、Spark SQL、MLlib和Spark ML Pipeline,强调了使用Python的优势。同时,概述了Hadoop的特性,特别是HDFS的分布式文件系统设计和MapReduce的并行处理模型。Spark2.0引入了SparkSession、DataSet API和Structured Streaming API,而Hadoop MapReduce2.0采用YARN资源管理。
摘要由CSDN通过智能技术生成

参考《Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社》

1、Spark

(1)大数据运算平台spark的应用
  • Spark Streaming 数据流处理
  • Spark SQL 互动分析
  • MLlib 机器学习

Spark的核心是RDD弹性分布式数据集,可以导入HDFS、HBase、Hadoop的数据源

(2)Spark特色

在这里插入图片描述

(3)主要功能:

在这里插入图片描述

(4)spark处理数据方式

RDD、DataFrame、SparkSQL(难度RDD>DataFrame>SparkSQL)
使用RDD必须有Map/Reduce的概念
DataFrame与SparkSQL使用速度比RDD快

(5)使用python优势

代码简单、高生产力、面向对象和函数式动态语言、数据分析模块(Numpy、Matplotlib、Pandas

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值