![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据——计算引擎Spark
文章平均质量分 77
大数据计算引擎spark
友培
感觉数据+AI之美
展开
-
Spark3.x——入门基础(相关知识理解篇)
文章目录Spark3.XSpark Core运行环境历史服务配置高可用Yarn模式运行架构核心概念核心编程RDD五大属性并行度和分区Spark3.X需要scala2.12,基于内存的快速、通用、可扩展的大数据分析计算引擎14年成为Apache顶级项目采用内存的计算策略,两次MR中间结果不会落盘而是在内存中一次性的数据计算:各类的框架在处理数据的时候,会从存储的设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到某种介质中spark是有其生态的存在,包含:core、sql、streamin原创 2021-12-28 21:44:13 · 1501 阅读 · 0 评论 -
spark的流处理记录
文章目录Spark中的Streaming记录1 窗口操作2 窗口优化3 SparkStreaming demo4 StructuredStreaming5 Structured Streaming读写Kafka demoSpark中的Streaming记录1 窗口操作图中sparkstreaming中batch的间隔时间是5s,而窗口的大小是15s,窗口的滑动间隔是10s;注意:1、batch间隔的5s是将数据流封装成一个个rdd DStream,窗口滑动间隔是10,则每10s后会将3个rdd原创 2021-09-10 10:42:28 · 452 阅读 · 0 评论 -
spark机器学习demo
文章目录1 机器学习流程2 逻辑回归demo1 模型训练+使用+保存2 保存模型的使用3 K-means demo4 图片识别demo1 读图片2 模型训练3 测试5 IK demo6 贝叶斯文本分类 demo1 机器学习流程原始数据—>数据特征工程(训练数据和测试数据)—>建立模型—>模型评估(测试数据进行评估)—>判断模型是否合格(不合格继续进行训练,算法学习)—>模型应用2 逻辑回归demo1 模型训练+使用+保存 //1、构建spark环境 va原创 2021-09-08 16:54:11 · 1116 阅读 · 0 评论 -
Spark优化和故障处理
文章目录1 Spark性能优化1.1 直接方式1.2 常规性能调优1.2.1 最优资源配置1.2.2 RDD优化1.2.3 并行度的调节1.2.4 广播大变量1.2.5 Kryo序列化1.2.6 调节本地化等待时长1.3 算子调优1.3.1 mappartitions1.3.2 foreachpartition优化数据库操作1.3.3 filter与coalesce的配合使用1.2.4 repartition解决SparkSQL低并行度问题1.2.5 优先使用reducebyk原创 2021-03-29 12:47:53 · 356 阅读 · 0 评论