Spark学习

Spark是大数据处理中的一个非常重要的组件,一般使用Hadoop在底层作为分布式存储系统,上层使用Spark代替Hadoop原来的MapReduce此外还提供RDD编程、Spark SQL、流计算和机器学习。它功能齐全、计算速度快,可以使用Scala语言、python、Java进行编程,那么在本周学习了Spark的相关内容,目录如下:

一、Spark的设计与运行原理

  • Spark概述
  • Spark生态系统
  • Spark运行架构
  • 部署和应用方式

二、Spark环境搭建和使用方法

  • 安装Spark
  • 在Spark shell中运行代码
  • 开发Spark独立应用程序
  • 集群环境搭建
  • 在集群上运行Spark代码

三、RDD编程

  • RDD编程基础(创建、操作、持久化、分区作用与创建)
  • 键值对RDD(创建、常用的转换操作、综合案例)
  • 文件读写(文件系统、json、Hbase)
  • 综合案例(Top N、最值、文件排序、二次排序、连接操作)

四、Spark SQL

  • Spark SQL简介
  • DataFrame
  • 从RDD转换到DataFrame(反射机制推断、编程定义)
  • 使用Spark SQL读写数据库

五、Spark Streaming(流计算)

  • 概述
  • Dstream概述
  • 基本输入源
  • 高级输入源
  • 转换操作
  • 输出操作

六、Spark MLib(机器学习)

  • Spark MLib简介
  • 机器学习流水线
  • 特征抽取、转化和选择
  • 分类与回归

大概就是这些内容啦。后面两章打算以后实际使用时再认真学习,先把基础内容掌握吃透,比如说Scala语言、RDD编程、Spark SQL,还有python语言操作RDD,后面再考虑要不要学习R语言。

这就是最近的学习内容,列个提纲,免得忘光。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值