大数据
一个老男人的IT梦
这个作者很懒,什么都没留下…
展开
-
大数据学习笔记(七)
一、sqoopsqoop是一款开源的数据迁移工具,可以Hive与RDMS之间数据的导入导出操作。也可以实现HDFS和RDMS之间数据的迁移功能。原创 2020-09-23 12:23:43 · 201 阅读 · 0 评论 -
大数据学习笔记(六)
一、Azkaban介绍1.1 Azkaban是什么Azkaban是由Linkedin开源的一个批量工作流任务调度工具,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种k/v(properties)格式文件来建立任务之间的依赖关系,并提供一个易于使用的web用户界面来维护和跟踪工作流。1.2 各种任务调度工具比较常见的工作流调度器有Hamake、Oozie, Azkaban,Cascading等,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应原创 2020-07-14 17:07:47 · 204 阅读 · 0 评论 -
大数据学习笔记(五)
一、Flume1.1 概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume支持从各种数据源中(如文件、文件夹、Socket数据包、Kafka等)收集数据;同时,Flume提供对数据进行简单处理,并把处理后的数据写出到HDFS、hbase、hive、kafka等众多外部存储系统。1.2 运行原理Flume里面的几个比较重要的概念:Agent:它是Flume的核心角色,Flume采集系统是由一个个的Agent连接起来。一个Agent里面包含原创 2020-06-18 10:11:22 · 321 阅读 · 0 评论 -
大数据学习笔记(四)
一、Hive1.1 数据仓库1.1.1 数据库与数据仓库1)数据库是面向事务设计,数据仓库是面向主题设计的;2)数据库一般存储了业务数据,数据仓库一般存储的是历史数据;3)数据库设计应该尽量避免冗余,一般针对某一业务应用进行设计;数据仓库在设计时会有意地引入冗余,依照分析需求、分析维度、分析指标进行设计;4)数据库是为了捕获数据而设计,数据仓库是为了分析数据而设计;数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,以供数据用户决策使用而产生的。1.1.2 数据仓库的分层架构原创 2020-06-15 07:25:35 · 400 阅读 · 0 评论 -
大数据学习笔记(三)
一、MapReduce1.1 MapReduce介绍MapReduce是Hadoop框架的核心之一,它主要负责数据的分布式计算问题。MapReduce的核心思想是“分而治之”。“分”,即把一个复杂的任务分解成若干个简单任务来处理,但前提是这些任务是可以并行计算的。“合”,即对map阶段的结果进行全局汇总。MapReduce将整个并行计算过程划分为两个阶段:Map:对一些独立元素组成的列表中的每个元素并行地执行指定操作;Shuffle:对Map阶段得到的数据进行清洗操作;Reduce:对Shu原创 2020-05-31 02:33:27 · 286 阅读 · 0 评论 -
大数据学习笔记(二)
一、HDFS1.1 HDFS介绍HDFS(Hadoop Distributed File System,全称为“分布式文件系统”) 是Apache Hadoop下的一个分布式文件系统项目。Hadoop底层就是使用HDFS来存储大型的数据 。HDFS 使用多台计算机存储文件,并且提供统一的访问接口。HDFS对数据文件的访问通过流的方式进行处理,这意味着通过命令和 MapReduce 程序的方式可以直接使用 HDFS。HDFS 提供了高吞吐量的访问,并且降低了对并发控制的要求,简化了数据的聚合性,而吞原创 2020-05-28 17:40:45 · 230 阅读 · 0 评论 -
大数据学习笔记(一)
一、Hadoop介绍在IT行业中,所谓大数据是指那些无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。比如说我们要存储一个非常大的文件。对于大数据而言,我们主要考虑两大问题,一个是数据的存储文件,另一个是数据的处理问题。那么在大数据中如何解决这两大问题。1)对于文件存储问题,我们可以把一个大的文件分割成许多小的文件,然后存放在不同的机器上,即分布式存储;2)对于文件数据的计算问题,如果数据量特别大,我们可以将一个大的任务拆分成许多小的任务,然后把这些任务放在集群上的各个主机中运行原创 2020-05-27 15:55:37 · 384 阅读 · 0 评论