读经典篇大数据后感

最新推荐文章于 2024-09-23 04:51:02 发布

weixin_45190220

最新推荐文章于 2024-09-23 04:51:02 发布

阅读量116

点赞数

分类专栏：大数据文章标签：大数据读后感

本文链接：https://blog.csdn.net/weixin_45190220/article/details/103320794

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

随着互联网、移动互联网、物联网等的大数据技术广泛融合到商业、金融、教育、医疗、农业、电信、交通等各个行业,我们的时代真正进入了"数即万物,万物皆数"的大数据时代。大数据正在改变着我们生活的方方面面,引领未来社会的发展。
近几天我阅读了Google关于大数据的三篇经典论文：GFS，MapReduce，BigTable。阅读起来有些困难，理解起来也不是特别容易理解。以下是我对这三篇论文的一些看法。
首先是我对GFS的一些看法。GFS：Google File System。是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS 与传统的分布式文件系统有着很多相同的设计目标，比如，性能、可伸缩性、可靠性以及可用性。他的设计思路是根据当前的和可预期的将来的应用规模和技术环境来评估传统的文件系统的特性。将他们引导到一个使用完全不同于传统的设计思路上。根据设计思路，认为组件失效是常态而不是异常，针对采用追加方式（有可能是并发追加）写入、然后再读取（通常序列化读取）的大文件进行优化，以及扩展标准文件系统接口、放松接口限制来改进整个系统。
其次是我对MapReduce的看法。MapReduce 是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。 MapReduce 架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心如何分割输入数据，在大量计算机组成的集群上的调度，集群中计算机的错误处理，管理集群中计算机之间必要的通信。采用 MapReduce 架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。 MapReduce 编程模型的原理是：利用一个输入 key/value pair 集合来产生一个输出的 key/value pair 集合。MapReduce 库的用户用两个函数表达这个计算：Map 和 Reduce。用户自定义的 Map 函数接受一个输入的 key/value pair 值，然后产生一个中间 key/value pair 值的集合。MapReduce 库把所有具有相同中间 key 值 I 的中间 value 值集合在一起后传递给 reduce 函数。用户自定义的 Reduce 函数接受一个中间 key 的值 I 和相关的一个 value 值的集合。Reduce 函数合并这些value 值，形成一个较小的 value 值的集合。一般的，每次 Reduce 函数调用只产生 0 或 1 个输出 value 值。通常我们通过一个迭代器把中间 value 值提供给 Reduce 函数，这样我们就可以处理无法全部放入内存中的大量的 value 值的集合。
最后，是我对BigTable的一些看法。Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通夫服务器上的 PB 级的数据Google 的很多项目使用 Bigtable 存储数据，包括 Web 索引、Google Earth、Google Finance。这些应用对Bigtable 提出的要求差异非常大，无论是在数据量上（从 URL 到网页到卫星图像）还是在响应速度上（从后端的批量处理到实时数据服务）。尽管应用需求差异很大，但是，针对 Google 的这些产品，Bigtable 还是成功的提供了一个灵活的、高性能的解决方案。