1.大数据的4V特性
中文 | 英文 |
---|---|
大量化 | volume |
快速化 | velocity |
多样化 | variety |
价值化 | value |
2.大数据的基本处理步骤
- 数据获取
flume
数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据 - 数据清洗
mapreduce
清除不需要,错误,无效的数据 - 数据存储
hdfs
性能,可用,可靠,成本等方面考量 - 数据处理
hive
按业务需求处理 - 数据分享
sqoop,kettle
可视化展示,最大化利用数据价值
3.Hadoop
- apache旗下开源软件平台,广义是指Hadoop生态圈
- 利用分布式集群,根据具体业务,对海量数据进行分布式处理
- 核心组件包括COMMON,HDFS,YARN,MAPREDUCE
4.组件
组件名称 | 主要功能 |
---|---|
HDFS | 分布式文件系统 |
MAPREDUCE | 分布式运算程序 |