spark第一篇笔记

2.26
2021年2月26日
10:04

spark是当前热门的大数据处理技术,spark采用Scala、java、python和R语言来变成

1.信息化浪潮有三次
第一次是在1980年前后,编制就是个人计算机的出现,同时也有像英特尔、AMD、微软等大厂出现
第二次是199年前后。标志就是互联网的出现。同时像阿里巴巴、百度、腾讯大厂出现
第三次是2010年前后,物联网、云计算大数据出现,同时也有像美团、哔哩哔哩等企业出现在市场,IT领域每十五年会迎来一次重大变革

数据产生方式的变革,促使大数据时代的产生
由最开始的运营式系统,被动产生数据,到智能手机等移动设备产生,人们会自主产生数据。到感知式系统广泛使用,导致了大数据的产生

大数据不仅仅是数据的“大量化”,还包含快速化、多样化等多重属性
大数据是由结构化和非结构化的数据组成的,
百分之十分结构化数据存储在数据库当中,
百分之九十的非结构化输与我们的生活息息相关

大数据处理的速度非常之快:
在这里插入图片描述

但大数据的价值密度低,商业价值高,
其中监控摄像是一个很好的例子

大数据关键技术:
数据采集:更多的对数据进行清洗,对有用的数据进行提炼,并进行实时处理分析
数据存储和管理:更多的是和sql数据库挂钩,对数据进行存储与管理
数据处理与分析:对数据进行挖掘,并进行可视化处理,帮助人们更好的去分析数据
数据隐私与安全:保护用户的隐私和数据的安全

在这里插入图片描述

大数据计算模式:
批处理计算: 更多的是针对大规模数据的批量处理。代表的就是spark和MapReduce
流计算:针对流数据的实时计算。代表产品品就是storm、flume等
图计算:针对大规模图结构数据的处理,代表产品pregel、graphx等
查询分析计算:对大规模数据的存储管理和查询分析,代表产品有dremel、hive等

在这里插入图片描述

Hadoop生态系统:

在这里插入图片描述

MapReduce采用“分而治之”的策略,吧大规模的数据分城独立的分片,并被多个map任务并行处理
工作流程:
在这里插入图片描述

yarn的目标是实现一个集群多个框架,在一个集群上部署统一的资源调度管理框架yarn,在yarn上来部署spark,MapReduce等计算框架。可以有效地提高集群利用率。

spark用于构建大型、低延迟的数据分析应用程序
spark架构图:
在这里插入图片描述

Hadoop与spark的对比:
Hadoop磁盘的开销大,延迟高,处理速度较慢
spark相较于Hadoop MapReduce来说更加灵活,处理速度更快
spark应该会取代MapReduce,而不是整个Hadoop,会借助于Hadoop中的HDFS、HBASE等来完成数据存储,由spark来完成计算

flink与spark对比:

在这里插入图片描述

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看READme.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值