大数据
我是码代码
1、穷则独善其身,达则兼济天下。
2、只有学习可以让我们克服对未知的恐惧。
3、种树的最好时间是十年前和现在。
展开
-
大数据学习笔记(三):Storm
本文仅提供一个入门概览,部分内容来源于网络,部分来源于自己理解,参考内容链接会在文末给出,部分内容未找到原作,如有侵权,请联系删除。1、概述许多分布式计算系统都可以实时或者接近实时地处理大数据流。Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Hadoop 在本质上是一个批处理...原创 2020-01-19 14:57:18 · 658 阅读 · 0 评论 -
大数据学习笔记(二):Spark
本文仅提供一个入门概览,部分内容来源于网络,部分来源于自己理解,参考内容链接会在文末给出。概述Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境。它提供了 java,scala, python,R 等语言的调用接口。而且,Spark还支持丰富的高级工具集,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX和Spar...原创 2020-01-19 13:38:56 · 468 阅读 · 0 评论 -
大数据学习笔记(一):Hadoop
1、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构,也是一个开源的大数据框架,通俗点说,是一个分布式计算的解决方案。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。可...原创 2020-01-18 14:51:48 · 782 阅读 · 0 评论 -
对于MapReduce: Simplified Data Processing on Large Clusters 的理解
MapReduce: Simplified Data Processing on Large Clusters这个论文原版的没看,找了几个网上流传的翻译稿,认真看了一遍。因为内容主要为大数据方面,目前自己还没直接接触到这方面的内容,先记录一下收获,不然用到的时候都忘光了(见笑了。。)先记录一下翻译比较好的文章,我自己看着逻辑上没啥大毛病的翻译稿(个人水平有限,别吐槽,见谅。。。):第一个是...原创 2020-01-06 16:48:55 · 2678 阅读 · 0 评论