2021-02-20

知识点:
Spark是一门热门的大数据处理技术。
支持采用Scala.java.python和R语言进行编程。
在这里插入图片描述

Spark和Hadoop安装所需准备:
1.jdk-1.8
2. hdfs 2.7.7
IT三次信息浪潮:
1980年 个人计算机 解决问题:信息处理 代表:苹果,戴尔
1995年前后 互联网 解决问题:信息传输 代表:阿里,腾讯
2010年前后 物联网云计算和大数据 解决问题:信息爆炸 代表:新的市场标杆企业。
大数据概念:(包含大量数据,速度快,结构和样式多,价值大)
1.数据量大
2.类型多:大数据由结构化(10%数据库)和非结构化数据(90%)组成
3.处理速度快 例子:微博,淘宝等等
4.价值密度低 ,商业价值高。例:监控视频。大数据的影响:
实验,理论,计算,数据。
大数据关键技术:
数据采集(爬虫),
数据存储和管理(hdfs,mysql),
数据处理和分析(mr,spark),
数据隐私和安全。
在这里插入图片描述
大数据的两核心技术:(谷歌)
分布式存储,
分布式处理。
大数据计算模式:
批处理计算,
流计算,
图计算,
查询分析计算。
代表性大数据技术:
Hadoop(hdfs和mapreduce),
Spark(大数据处理技术)
Filnk(开源流处理框架),
Beam(大数据的编程模型,执行引擎的实现)。
Filnk与Spark对比:
对比
Hadoop与Spark对比
在这里插入图片描述
Spark概念(只做计算,不做存储)
spark是基于内存计算的大数据并行计算框架,可用于构建大型的,低延迟的数据分析应用程序。
特点: 运行速度快,易用性强,共性强,到处跑,容易使用。
补充:三大分布式计算系统开源项目:hadoop,spark,storm。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值