大数据简介

最新推荐文章于 2024-05-19 11:42:49 发布

wouderw

最新推荐文章于 2024-05-19 11:42:49 发布

阅读量117

点赞数

文章标签：大数据 hadoop spark

原文链接：https://blog.csdn.net/qq_56924160/article/details/121089098?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166722994316782388016612%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=166722994316782388016612&biz_id=0&utm_me

版权

知识
java se,maven,idea,linux,shell

大数据简介
百度百科

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

计算机单位

大数据的五个“v”

海量数据shi'shi'ji'suan

结构化数据，例如mysql中的表格

非结构化数据

Hadoop

Hadoop概述
Welcome! - The Apache HTTP Server Project

Apache Hadoop

Hadoop的历史

Hadoop三大发行版本

1）Apache Hadoop
官网地址：http://hadoop.apache.org

下载地址：https://hadoop.apache.org/releases.html

2）Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh

下载地址：https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_download.html

（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。

（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。

（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。

3）Hortonworks Hadoop
官网地址：https://hortonworks.com/products/data-center/hdp/

下载地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。

（3）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

（4）2018年Hortonworks目前已经被Cloudera公司收购。

Hadoop优势

Hadoop的组成

HDFS架构概述（负责Hadoop储存功能）
Hadoop Distributed File System，简称HDFS，是一个分布式文件系统

一般情况下，NameNode和SecondaryNameNode,放到不同的服务器中

YAPN概述
Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

MapReduce将计算过程分为两个阶段：Map和Reduce
1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

如果想在海量数据中查找指定的数据通过Map分配给每个服务器，每个服务器检索自己的服务器，当每个服务器找到之后通过Reduce交给汇总服务器。

HDFS，YARN，MapReduce三者关系

当客户端发出请求，集群开始工作，ResourceManager就会找一个NodeManager开启一个

Container,AppMstr会向ResourceManager申请资源，服务器1和2中通过MapTask找对应的资源，每一个MapTask独立工作，不管有没有检索到都会返回一个结果，通过Reduce Task把内容写到磁盘上。然后在NameNode进行记录，2NN也记录一次数据

大数据生态体系

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

数据源：一般由三种，数据库表格（结构化数据），文件日志,xml,json（半结构化数据，可以转换成结构化数据），视频,ppt等（非结构化数据，无法转换成结构化数据）

对于结构化数据可以使用sqoop数据传递，来同步mysql中的数据，半结构化数据用flume日志收集来处理，非结构化数据可以用kafka来处理，kafka也可以处理结构化数据和半结构化数据

HDFS和Hbase和Kafka都可以进行数据存储

YARN负责资源调度

MapReduce基于硬盘进行计算

Spark一部分基于内存进行计算

MapReduce上由一个Hive专门用于查询数据，MapReduce需要写代码来查询效率较低，Hive可以使用类似sql语句的方式查询

Spark Sql可以用于类似sql的方式查询数据

Hive，Spark Mlib， Spark都是离线计算，对时间要求不高的

Spark Streaming和Flink和storm用于实时计算，对时间要求较高，比如案例要求实时计算交易额

Storm已经被淘汰了,目前比较流行Flink

比如集群中由100多个任务，不一定都同时运行，可以把非重要的任务安排到凌晨执行，或者先安排比较重要的任务先执行，由调度器进行调度
————————————————
版权声明：本文为CSDN博主「TianXiaolalala」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_56924160/article/details/121089098

wouderw

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据简介

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。数据源：一般由三种，数据库表格（结构化数据），文件日志,xml,json（半结构化数据，可以转换成结构化数据），视频,ppt等（非结构化数据，无法转换成结构化数据）HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
复制链接

扫一扫