大数据特点和基本处理流程

1.大数据的4V特性

中文 英文
大量化 volume
快速化 velocity
多样化 variety
价值化 value

2.大数据的基本处理步骤

  1. 数据获取
    flume
    数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
  2. 数据清洗
    mapreduce
    清除不需要,错误,无效的数据
  3. 数据存储
    hdfs
    性能,可用,可靠,成本等方面考量
  4. 数据处理
    hive
    按业务需求处理
  5. 数据分享
    sqoop,kettle
    可视化展示,最大化利用数据价值

3.Hadoop

  1. apache旗下开源软件平台,广义是指Hadoop生态圈
  2. 利用分布式集群,根据具体业务,对海量数据进行分布式处理
  3. 核心组件包括COMMON,HDFS,YARN,MAPREDUCE

4.组件

组件名称 主要功能
HDFS 分布式文件系统
MAPREDUCE 分布式运算程序
  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值