大数据技术

最新推荐文章于 2024-08-03 21:06:26 发布

twilight_cc

最新推荐文章于 2024-08-03 21:06:26 发布

阅读量182

点赞数

分类专栏：大数据技术文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43841579/article/details/101275207

版权

大数据技术专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大数据技术

大数据时代来临
大数据概念

MOOC大学课程Spark编程基础跟学笔记

大数据时代来临

存储设备
CPU运算能力
网络带宽

数据产生方式：企业运营数据->自媒体数据->感知数据

大数据概念

4V特性

volume:数据量大
variety：数据类型繁多
velocity: 数据处理速度快
value:价值密度低，单点价值密度高

4步研究范式

实验->理论->计算->数据

大数据关键技术

数据采集

网页爬虫
ETL工具

数据存储与管理

分布式文件系统
分布式数据库
Nosql数据库

数据处理与分析

mapreduce
spark

HADOOP【HDFS,MAPREDUCE】

数据隐私与安全

隐私数据保护体系
数据安全保护体系

大数据计算模式

批处理计算

无法实时响应

批处理框架：
spark(数据在内存中计算，s级响应)
mapreduce

流计算

针对流数据的实时计算（日志分析）
数据量小，响应速度快（ms级响应）

流处理框架：
twitter-> storm
s4
flume
dstream

图计算

图结构数据（社交网络、地理信息系统）

图计算框架：
google->pregel
hama
power graph

查询分析计算

查询分析框架：
google->dremel
hadoop->hive

代表性大数据技术

hadoop

一整套大数据生态系统：
hdfs(存储)
yarn(调度)资源调度管家：不同计算框架之间底层资源利用调度，实现不同计算应用的负载混搭，共享底层存储
mapreduce(计算):map+reduce
hive(数据仓库，时间维度上的连续数据)
pig(pig latin语言，数据集成/转换)
mahout(算法库，实现常用数据挖掘方法接口)
hbase(分布式数据库)
zookeeper(分布式协作服务)
flume(日志采集)
sqoop(关系型数据库与hdfs/hive/hbase转换)
…

spark

spark core(完成Rdd应用开发)
spark sql(关系型数据处理)
spark streaming(流计算)
mllib(机器学习算法库)
graphx(图计算)

hadoop vs spark

mapreduce缺点：
高度抽象只有map(),reduce()，表达能力有限；
磁盘IO开销大;
map任务-reduce任务：衔接等待开销;
对于迭代算法性能不好。

spark对mapreduce的继承改进:
操作函数多,+groupby(),…
高效利用内存，许多数据交换在内存中完成
DAG有向无环图调度机制，避免数据反复落地

spark 会取代hadoop吗？

spark是和mapreduce对等的计算框架
hdfs和hbase存储数据功能和spark共存共荣

编程语言首选scala交互式执行
java 先编译再执行,hadoop由java开发，可以直接调用hadoop接口
python 并发性能不好

flink(与spark功能相近的计算框架)

流计算/批处理/hadoop交互

flink vs spark

flink 是真正满足实时流计算的框架
spark 是一个基于数据片集合的批处理框架,模拟流计算（实现不了ms级）
flink按行实时计算

beam

google希望通过一个框架实现hadoop和计算框架

开源cloud dataflow的编程接口，命名为beam

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据技术

介绍大数据技术的发展和对比
复制链接

扫一扫

专栏目录

twilight_cc CSDN认证博客专家 CSDN认证企业博客

码龄6年

28: 原创

40万+: 周排名

165万+: 总排名

2万+: 访问

: 等级

475: 积分

12: 粉丝

17: 获赞

4: 评论

104: 收藏

私信

关注

热门文章

分类专栏

最新评论

贝叶斯优化与高斯过程
qq_42124129: http://www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=5607&journal_id=jos
深度学习网络-AlexNet
Rococo-W: conv_4_1和conv_4_2为什么第四个卷积层分开了？
深度学习网络-AlexNet
Rococo-W: 卷积通道和特征map数量计算那边，4*4*1，1是指把三色通道相加了吗？
PCA之sklearn与sparkmllib源码剖析对比
qq_45976202: 哥们那sparkmllib的pca处理和python的pca处理相比，可靠性怎么样

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。