Spark------------------------spark核心SparkStreaming与 kafka、redis的结合

最新推荐文章于 2021-08-13 20:40:02 发布

leson-xu

最新推荐文章于 2021-08-13 20:40:02 发布

阅读量177

点赞数

分类专栏：大数据文章标签： spark sparkStreaming redis kafka

本文链接：https://blog.csdn.net/weixin_43740680/article/details/99227220

版权

大数据专栏收录该内容

60 篇文章 1 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Apache Spark的核心编程，包括SparkStreaming与Kafka、Redis的集成，用于实时数据处理。内容涵盖Spark Streaming的处理流程、数据源（如Kafka）、数据存储（如Redis）以及实时窗口统计分析。还讨论了Spark运行工作原理，Kafka的安装和使用，并提到了SparkStreaming直接从Kafka拉取数据的Direct Approach，强调其高效和一致性的特点。

摘要由CSDN通过智能技术生成

1.Apache spark核心编程

集批处理（离线处理）、交互式处理和流式处理，为一体一栈式大数据解决方案

Core
数据式结构：分布式集合RDD
SparkContext
批处理（batch processing），处理数据 T + 1
注意：
每次数据的数据都是一个固定的数据集，而不是变化
SQL
DataFrame/DataSet = RDD + schema
SparkSession
老版本：SQLContext/HiveContext
交互式处理（interactive processing）
注意：
每次数据的数据都是一个固定的数据集，而不是变化
MLlib
一些算法使用Spark给你实现了，提供了对应API给你用
Streaming

流式数据处理（stream processing）
要处理的数据就像流水一样，源源不断的产生数据，需要实时进行处理
对SparkCore的高级API的封装，

了解本专栏

超级会员免费看

leson-xu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark------------------------spark核心SparkStreaming与 kafka、redis的结合

1.Apache spark核心编程集批处理（离线处理）、交互式处理和流式处理，为一体一栈式大数据解决方案Core数据式结构：分布式集合RDDSparkContext批处理（batch processing），处理数据 T + 1注意：每次数据的数据都是一个固定的数据集，而不是变化SQLDataFrame/DataSet = RDD + schemaSparkSessi...
复制链接

扫一扫

专栏目录