hadoop
一个老男人的IT梦
这个作者很懒,什么都没留下…
展开
-
大数据学习笔记(六)
一、Azkaban介绍1.1 Azkaban是什么Azkaban是由Linkedin开源的一个批量工作流任务调度工具,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种k/v(properties)格式文件来建立任务之间的依赖关系,并提供一个易于使用的web用户界面来维护和跟踪工作流。1.2 各种任务调度工具比较常见的工作流调度器有Hamake、Oozie, Azkaban,Cascading等,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应原创 2020-07-14 17:07:47 · 223 阅读 · 0 评论 -
大数据学习笔记(一)
一、Hadoop介绍在IT行业中,所谓大数据是指那些无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。比如说我们要存储一个非常大的文件。对于大数据而言,我们主要考虑两大问题,一个是数据的存储文件,另一个是数据的处理问题。那么在大数据中如何解决这两大问题。1)对于文件存储问题,我们可以把一个大的文件分割成许多小的文件,然后存放在不同的机器上,即分布式存储;2)对于文件数据的计算问题,如果数据量特别大,我们可以将一个大的任务拆分成许多小的任务,然后把这些任务放在集群上的各个主机中运行原创 2020-05-27 15:55:37 · 405 阅读 · 0 评论