初识大数据

目录

前言

一、数据时代

二、数据的存储与分析

1.数据存储

2.数据分析

总结


前言

仅以此来记录大数据的学习内容和心得,我会以一种发散式的方式去学习大数据知识点。我会不停的提问题,通过解决这些问题去了解深究大数据的更多的知识点。欢迎志同道合的朋友一起讨论一起提问。


一、数据时代

马爸爸几年前就已经提出了DT数据时代,现在,不用我多说大家应该可以深切的感受到数据的便捷和魅力了。相信未来数据可能会主导人类更多的方向。

现在全球每天产生的数据量达到了EB级别,面对这么大的数据量,我们需要思考下,单纯的数据对我们有用吗?比如我每天浏览100个网站,刷100个抖音视频,逛淘宝京东1小时,当这些数据并没有存储下来并加以分析,可以说这些数据就是占用硬盘空间的垃圾。思考:数据如何进行存储和怎样分析?

二、数据的存储与分析

1.数据存储

目前我们产生的大量数据存储在硬盘上,但这些年随着硬盘空间的提升,其数据传输速度却没有显著提高。目前1T硬盘,其数据的传输速度约为100MB/s。那么想要读取这块硬盘上的全部数据,大概需要2.9小时,如果是往硬盘里写数据那就更慢了。

思考:如何提高数据的读取呢?

引用Grace Hopper的一句话,我们不该想方设法打造什么超级计算机,而应该千方百计综合利用更多的计算机来解决问题。所以这是一种思想,分布式的思想。我想读取这块1T硬盘上的所有数据,那么将这1T数据放到100块硬盘上呢,我同时读取这100块硬盘的数据,不到两分钟就能读取完成。

思考:什么是分布式?我的理解是,分布式就是将各个组件(MySQL、PHP、Apache …)和数据分布在网络上的各台主机, 并且各组件之间和数据通过消息传递来通信并协调工作。简单点就是分而治之。

思考:对多个硬盘进行读写需要面临什么问题?

如果有块硬盘损坏了,那它上面的数据怎么办?

可以想到建立副本,通过备份数据来确保数据不会丢失。例如RAID ( Redundant Array of Independent Disks )即独立磁盘冗余阵列,通常简称为磁盘阵列。RAID 会自动根据剩余磁盘中的数据和校验数据重建丢失的数据,保证数据一致性和完整性。

2.数据分析

百度百科上解释:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。我的理解:通过分析工具和其它手段,对数据进行加工处理,得到有价值的信息。

目前hadoop为我们提供了一个可靠的且可扩展的存储和分析平台。并且可以认为hadoop是大数据的起源。


总结

本文仅仅简单介绍了对大数据的认识,然而大数据的知识包含了太多太多。我会以此篇为开始,不停的去学习,将自己的学习认知分享出来。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值