Hadoop大数据基础知识点总结--持续更新

什么是大数据数据量很大的数据就是大数据数据集的大小已经远远超过了现有传统的技术方案(数据库)或工具可以处理能力的数据大数据的特点海量化 数据量大 TB ---> PB 多样化 数据类型复杂多样,结构化数据,半结构化数据,非结构化数据快速化 数据增长的速度快低密度高价值 低成本创建高价值,数据量越大,能做的事情越多,所产生的价值也就越高大数据项目数据处理流程生集存...
摘要由CSDN通过智能技术生成

什么是大数据

数据量很大的数据就是大数据
数据集的大小已经远远超过了现有传统的技术方案(数据库)或工具可以处理能力的数据

大数据的特点

海量化
	数据量大 TB ---> PB 
多样化
	数据类型复杂多样,结构化数据,半结构化数据,非结构化数据
快速化
	数据增长的速度快
低密度高价值
	低成本创建高价值,数据量越大,能做的事情越多,所产生的价值也就越高

大数据项目数据处理流程

生集存分,预计存现
1、数据生产
2、数据采集
3、数据存储
4、需求分析
5、数据预处理
6、数据与计算
7、结果数据存储
8、结果数据展现

大数据能做什么

在海量数据的背景下
	1、快速查询
	2、数据存储
		超大量数据的存储,单个文件(超过了一个硬盘最大的存储量)
	3、快速计算
		与传统方案对比,传统用时一个月,大数据仅需要两三个小时
	4、实时计算
		立刻马上得出结果
	5、数据挖掘
		挖掘实际存在但是没有发现的有价值的数据

传统(没有大数据之前)服务器安装部署

1、系统硬盘
	系统硬盘做RAID1
	/boot	200M
	/SWAP	内存的1-2倍(大数据环境下,需关闭)
	/		根目录(剩余所有容量)
2、数据硬盘
	将多个小硬盘合并成一个大硬盘(逻辑卷)

在这里插入图片描述

大数据系统安装部署

1、系统硬盘
	系统硬盘做RAID1
	/boot	200M
	/SWAP	内存的1-2倍(大数据环境下,需关闭)
	/		根目录(剩余所有容量)
2、数据硬盘
	数据硬盘优先不做RAID,必须做时做RAID0
	每个硬盘独立挂载,一个硬盘一个目录

在这里插入图片描述

大数据为什么这么快

记忆诀窍:展布可模
1、扩展性
	传统的是纵向扩展:服务器数量不变,每个服务器的配置越来越高
	大数据是横向扩展:服务器配置不变,每个服务器的数量越来越多
2、分布式
	传统的是集中式存储,集中式计算
	大数据是分布式存储,分布式计算
3、可用性
	传统的是单份数据:存储数据的磁盘少
	大数据是多份数据:存储数据的磁盘多
4、模型
	传统的是移动数据到程序段
	大数据是移动程序到数据端:减少了大量的IO开销和网络开销,利用并行计算,并行存储

大数据技术快的原因

	分布式存储
	分布式并行计算
	移动程序到数据端
	更前卫,更先进的实现思路
	更细分的业务场景
	更陷阱的硬件技术+更先进的软件技术
	DataNode多目录配置,多台服务器有多个磁盘,读写执行率较高

Hadoop特性优点

扩容能力
成本低
高效率
可靠性

Hadoop部署的方式分别是哪几种?

Standalone mode(独立模式)
Pseudo-Distributed mode(伪分布式模式)
Cluster mode (群集模式)

Hadoop的垃圾桶机制在哪一个文件中配置

core-site.xml 文件中配置

垃圾桶配置参数是什么?

fs.trash.interval

Hadoop安装是需要配置的文件有哪些?

hadoop-enb.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
Slaves

Hadoop安装包目录包括哪些文件夹,各有什么作用?

bin:Hadoop最基本的管理脚本和使用脚本的目录
etc:Hadoop配置文件所在的目录
include:对外提供的编程库头文件
lib:该目录包含了Hadoop对外提供的编程动态库和静态库
libexec:各个服务器对应的shell配置文件所在的目录
sbin:Hadoop管理脚本所在的目录
share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例

简述Hadoop的combine 与 partition 的区别

combine和partition都是函数,中间的步骤应该只要shuffle
combine分为map端和reduce端
	作用是把同一个key的键值对合并在一起,可以自定义的
partition是分割map每个节点的结果
	按照key分别映射给不同的reduce,也可以是自定义的,这里其实可以理解为归类
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值