Spark学习

最新推荐文章于 2023-07-23 10:00:00 发布

学习真是太快乐了呀

最新推荐文章于 2023-07-23 10:00:00 发布

阅读量157

点赞数

分类专栏：大数据学习文章标签：大数据 Spark 学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44961794/article/details/102532131

版权

大数据学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Spark是大数据处理中的一个非常重要的组件，一般使用Hadoop在底层作为分布式存储系统，上层使用Spark代替Hadoop原来的MapReduce此外还提供RDD编程、Spark SQL、流计算和机器学习。它功能齐全、计算速度快，可以使用Scala语言、python、Java进行编程，那么在本周学习了Spark的相关内容，目录如下：

一、Spark的设计与运行原理

Spark概述
Spark生态系统
Spark运行架构
部署和应用方式

二、Spark环境搭建和使用方法

安装Spark
在Spark shell中运行代码
开发Spark独立应用程序
集群环境搭建
在集群上运行Spark代码

三、RDD编程

RDD编程基础（创建、操作、持久化、分区作用与创建）
键值对RDD（创建、常用的转换操作、综合案例）
文件读写（文件系统、json、Hbase）
综合案例（Top N、最值、文件排序、二次排序、连接操作）

四、Spark SQL

Spark SQL简介
DataFrame
从RDD转换到DataFrame（反射机制推断、编程定义）
使用Spark SQL读写数据库

五、Spark Streaming（流计算）

概述
Dstream概述
基本输入源
高级输入源
转换操作
输出操作

六、Spark MLib（机器学习）

Spark MLib简介
机器学习流水线
特征抽取、转化和选择
分类与回归

大概就是这些内容啦。后面两章打算以后实际使用时再认真学习，先把基础内容掌握吃透，比如说Scala语言、RDD编程、Spark SQL，还有python语言操作RDD，后面再考虑要不要学习R语言。

这就是最近的学习内容，列个提纲，免得忘光。

学习真是太快乐了呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。