hadoop
文章平均质量分 70
zhang_zhongkang
这个作者很懒,什么都没留下…
展开
-
(一)hadoop学习之大数据简介
大数据 概念 不能使用一台机器进行处理的数据 大数据的核心是样本=总体 特性 大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上 快速性(velocity): 反映在数据的快速产生及数据变更的频率上 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured...原创 2018-08-31 09:48:36 · 147 阅读 · 0 评论 -
(二)hadoop学习之Hadoop 简介
Hadoop - 简介 Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点 特别适合写一次,读多次的场景 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件) 不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次) Hadoop架构 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计...原创 2018-08-31 09:51:11 · 94 阅读 · 0 评论 -
(三)hadoop学习之HDFS简介
Hadoop - HDFS 简介 Hadoop Distributed File System,分布式文件系统 结构 block: 1.数据存储的基本单位,一般情况为64M 2.大文件会被拆分成块,存储于不同机器,如果文件大小低于block大小,那么block大小为实际文件大小 3.读写操作,每次读写一个block 3.block会被复制到多个机器上(Replication) N...原创 2018-08-31 10:54:09 · 154 阅读 · 0 评论