第一章,关键技术
第二章,数据相关的操作,存储、管理
第三章 序列化
序列化就是为了将数据更好方便的进行移动,毕竟数据可能有很多方面,很多点,如果一直是保持格式传递数据,可能会浪费大量资源,所以这里就序列化,把他变成一串更好传递的信息,传送到头再进行反序列化,把他还原。
这里选择序列化格式需要考虑到的几个方面有:
数据量:数据占用的内存或磁盘的空间大小
读写速度:计算机读写需要的时间
可读性:在没有外界帮助下,是否可以理解序列化后的数据?
易用性:序列化这个操作的难易程度,是否需要额外工具
3.1 Avro
用途介绍的是:数据序列化
我的理解:这应该是个很好用的工具吧,而且有运行时组装和schema驱动的两个特性,很不错啊,算是高效的
我的感觉:我,见识浅薄,学到了
3.2 JSON
用途介绍的是:数据描述和传递
我的理解:经常用,不多说
我的感觉:真的太感谢了,要不这一章我知道的又是0蛋。
3.3 Protocol Buffers(protobuf)
用途介绍的是:数据序列化
我的理解:这和Avro不同是应用场景上,在灵活性和性能之间做出权衡,它的目的是快速、简单以及精简,所以它支持的编程语言和复杂的数据类型更少。而且是编译时组装,不是运行时组装。
我的感觉:序列化我接触的少,没用过,想做个demo试下
3.4 Parquet
用途介绍的是:文件格式
我的理解:用它给定的方式存储数据,柱状的数据存储格式,可以很好表现数据结构化,但是复杂,不太好运,但是很多工具支持
我的感觉:了解下就行了吧
这一章大致就是这些内容,第四章就是管理与监控啦。