大数据之hadoop入门

一、大数据概念

1、数据存储单位:

在这里插入图片描述

2、大数据特点:

① 大量:一些大企业数据量级已经接近EB级。
② 高速计算:例如天猫双十一需要实时计算交易额。
③ 多样:数据包含图片,日志,视频,音频等等,对数据的处理提高更高的要求。
④ 低价值密度:如何快速对有价值数据进行提纯成为大数据背景下需要解决的难题。

3、大数据应用

① 物流仓储,精细化运营。
② 零售,分析用户画像,提升销量。案例:纸尿裤加啤酒可以提升两者销量。
③ 旅游用户分析管理。
④ 产品广告推荐。
⑤ 保险:风险预测,提升精细化定价能力。
⑥ 金融:多维度分析建立用户画像,帮助机构推荐优质用户,防范欺诈风险。
⑦ 人工智能,案例:alphago 战胜柯洁,汽车自动驾驶技术等。

4、大数据部门业务流程分析

第一步、产品人员提需求。
第二步、数据部门搭建平台,分析数据指标。
第三步、数据可视化。

5、大数据部门组织结构

在这里插入图片描述

二、从Hadoop框架讨论大数据生态

1、Hadoop是什么

① Hadoop是Apache基金会开发的分布式系统开发框架
② 主要解决海量数据的存储和海量数据的分析计算问题
③ Hadoop通常指Hadoop生态圈:HIVE,Pig,Zookeeper,HBASE,scibe。

2、Hadoop优势

① 高可靠性:Hadoop底层维护多个数据副本,所以Hadoop某个计算元素或者存储出现问题,也不会导致数据丢失。
② 高扩展性:在集群分配任务数据,可以方便的扩展数以千计的节点。
③ 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
④ 高容错性:能自动将失败的任务重新分配。

3、Hadoop的组成

在这里插入图片描述

4、HDFS架构包括NameNode(nn),DataNode(dn),SecondNameNode(2nn):

① NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。
② DataNode(dn):本地文件系统存储文件块数据,以及数据的校验和。
③ SecondNameNode(2nn):每隔一段时间对NameNode(nn)元数据备份。

5、 YARN架构包含:

① ResourceManager(RM)主要作用:处理客户端请求、监控NodeMnager、启动和监控ApplicationMaster(程序)、资源分配和调度。
② NodeManager(NM)主要作用:管理单个节点的资源、处理来自 ResourceManager(RM)的命令、处理来自ApplicationMaster的命令。
③ ApplicationMaster(AM)主要作用:负责数据的切分、为应用程序申请资源并分配给内部的任务、任务的监控和容错。
④ Container:Container是YARNde 资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络。
在这里插入图片描述

6、MapReduce架构

MapReduce将计算过程分为两个阶段:Map和Reduce
① Map阶段并行处理输入数据
② Reduce阶段对Map结果进行汇总在这里插入图片描述

7、大数据技术生态体系

在这里插入图片描述
图中涉及的技术名词解释如下:
1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;
4)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
5)Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6)Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

8、 推荐系统框架图在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值