《Hadoop生态系统》(O'REILLY )(三)

第一章,关键技术
第二章,数据相关的操作,存储、管理

第三章 序列化

序列化就是为了将数据更好方便的进行移动,毕竟数据可能有很多方面,很多点,如果一直是保持格式传递数据,可能会浪费大量资源,所以这里就序列化,把他变成一串更好传递的信息,传送到头再进行反序列化,把他还原。
这里选择序列化格式需要考虑到的几个方面有:
数据量:数据占用的内存或磁盘的空间大小
读写速度:计算机读写需要的时间
可读性:在没有外界帮助下,是否可以理解序列化后的数据?
易用性:序列化这个操作的难易程度,是否需要额外工具

3.1 Avro

用途介绍的是:数据序列化
我的理解:这应该是个很好用的工具吧,而且有运行时组装和schema驱动的两个特性,很不错啊,算是高效的
我的感觉:我,见识浅薄,学到了

3.2 JSON

用途介绍的是:数据描述和传递
我的理解:经常用,不多说
我的感觉:真的太感谢了,要不这一章我知道的又是0蛋。

3.3 Protocol Buffers(protobuf)

用途介绍的是:数据序列化
我的理解:这和Avro不同是应用场景上,在灵活性和性能之间做出权衡,它的目的是快速、简单以及精简,所以它支持的编程语言和复杂的数据类型更少。而且是编译时组装,不是运行时组装。
我的感觉:序列化我接触的少,没用过,想做个demo试下

3.4 Parquet

用途介绍的是:文件格式
我的理解:用它给定的方式存储数据,柱状的数据存储格式,可以很好表现数据结构化,但是复杂,不太好运,但是很多工具支持
我的感觉:了解下就行了吧

这一章大致就是这些内容,第四章就是管理与监控啦。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值