初识大数据

zcg_good

于 2020-10-20 10:09:26 发布

阅读量148

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/zcg_good/article/details/109175561

版权

6 篇文章 0 订阅

订阅专栏

前言

仅以此来记录大数据的学习内容和心得，我会以一种发散式的方式去学习大数据知识点。我会不停的提问题，通过解决这些问题去了解深究大数据的更多的知识点。欢迎志同道合的朋友一起讨论一起提问。

马爸爸几年前就已经提出了DT数据时代，现在，不用我多说大家应该可以深切的感受到数据的便捷和魅力了。相信未来数据可能会主导人类更多的方向。

现在全球每天产生的数据量达到了EB级别，面对这么大的数据量，我们需要思考下，单纯的数据对我们有用吗？比如我每天浏览100个网站，刷100个抖音视频，逛淘宝京东1小时，当这些数据并没有存储下来并加以分析，可以说这些数据就是占用硬盘空间的垃圾。思考：数据如何进行存储和怎样分析？

目前我们产生的大量数据存储在硬盘上，但这些年随着硬盘空间的提升，其数据传输速度却没有显著提高。目前1T硬盘，其数据的传输速度约为100MB/s。那么想要读取这块硬盘上的全部数据，大概需要2.9小时，如果是往硬盘里写数据那就更慢了。

思考：如何提高数据的读取呢？

引用Grace Hopper的一句话，我们不该想方设法打造什么超级计算机，而应该千方百计综合利用更多的计算机来解决问题。所以这是一种思想，分布式的思想。我想读取这块1T硬盘上的所有数据，那么将这1T数据放到100块硬盘上呢，我同时读取这100块硬盘的数据，不到两分钟就能读取完成。

思考：什么是分布式？我的理解是，分布式就是将各个组件(MySQL、PHP、Apache …)和数据分布在网络上的各台主机, 并且各组件之间和数据通过消息传递来通信并协调工作。简单点就是分而治之。

思考：对多个硬盘进行读写需要面临什么问题？

如果有块硬盘损坏了，那它上面的数据怎么办？

可以想到建立副本，通过备份数据来确保数据不会丢失。例如RAID （ Redundant Array of Independent Disks ）即独立磁盘冗余阵列，通常简称为磁盘阵列。RAID 会自动根据剩余磁盘中的数据和校验数据重建丢失的数据，保证数据一致性和完整性。

百度百科上解释：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。我的理解：通过分析工具和其它手段，对数据进行加工处理，得到有价值的信息。

目前hadoop为我们提供了一个可靠的且可扩展的存储和分析平台。并且可以认为hadoop是大数据的起源。

本文仅仅简单介绍了对大数据的认识，然而大数据的知识包含了太多太多。我会以此篇为开始，不停的去学习，将自己的学习认知分享出来。

关注