大数据
wzlhlhhh
这个作者很懒,什么都没留下…
展开
-
《Hadoop生态系统》(O'REILLY )(一)
这是读书笔记。 最近准备把基础重新学一遍,再往大数据方向走。 正好有些书买了还没看,这本书讲的是 Hadoop的生态圈 是一本概要类的书籍,16年11月的,正好我也有个简单了解。 第一章 关键技术 这一章讲的是当时的Hadoop的关键性的技术,都是完全集成的,其中包括分布式文件系统HDFS、处理大数据的编程范式MapReduce、数据处理的YARN、数据处理/存储的Spark 我听得比较多的就是前...原创 2018-11-06 14:51:01 · 329 阅读 · 0 评论 -
《Hadoop生态系统》(O'REILLY )(二)
本书第二章,是讲的数据库及数据管理。 首先,数据太大, 依靠关系型数据库,不现实,这个都知道,这个章节讲的技术,都是基于non-SQL的。 其中NoSql的数据库,有以下几类: -列式存储 -文档存储 -键值/元祖存储 -图数据库 -多模型数据库 -对象数据库 -网络和云数据库 -多值数据库 -表格存储 -其他 放心,我就熟悉一个KEY/VALUE和文档存储。。。。 第二章 数据库及数据管理 2....原创 2018-11-06 15:14:28 · 163 阅读 · 0 评论 -
《Hadoop生态系统》(O'REILLY )(三)
第一章,关键技术 第二章,数据相关的操作,存储、管理 第三章 序列化 序列化就是为了将数据更好方便的进行移动,毕竟数据可能有很多方面,很多点,如果一直是保持格式传递数据,可能会浪费大量资源,所以这里就序列化,把他变成一串更好传递的信息,传送到头再进行反序列化,把他还原。 这里选择序列化格式需要考虑到的几个方面有: 数据量:数据占用的内存或磁盘的空间大小 读写速度:计算机读写需要的时间 可读性:在没...原创 2018-11-06 16:07:19 · 215 阅读 · 0 评论