![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 80
WesleyWang97
这个作者很懒,什么都没留下…
展开
-
Hadoop基础
Hadoop是什么 开源的大数据框架 分布式计算的解决方案 Hadoop = HDFS(分布式文件系统) + MapReduce(分布式计算) HDFS HDFS由一个NameNode,多个DataNode构成 普通的成百上千的机器 按TB甚至PB为单位的大量的数据 简单便捷的文件获取 HDFS数据块 数据块是抽象块而非整个文件作为存储单元,默认大小为64MB,一般设置...原创 2018-05-09 20:06:13 · 183 阅读 · 0 评论 -
Spark基础
Spark的特点 Spark是快速且通用的计算平台. - 快速性(基于内存计算,扩充了流行的MapReduce计算模型) - 通用性(容纳了其他分布式系统拥有的功能,批处理,迭代式计算,交互查询和流处理等) - 高度开放(提供了Python,Java,Scala,SQL的API和丰富的内置库,和其他大数据工具整合得很好) Spark的组件 Spark包括多个紧密集成的组件 S...原创 2018-05-10 15:16:57 · 161 阅读 · 0 评论