数据仓库之工具Hadoop简单介绍

大数据定义:

”大数据“这个名词是近年来随着以hadoop为代表的一系列分布式计算框架的产生发展流行起来的。所谓大数据就是一个数据集合,它的数据量和复杂度是传统的数据处理应用无法应对的。大数据带来的挑战包括数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、更新、和信息安全等。大数据的数据量至少是TB级别的,在当下的信息时代,PB级别也已较为常见。大数据包含的数据大小超越了普通软件工具的处理能力,换句话说,普通软件没办法在一个可容忍的时间范围内完成大数据的处理。
现在普遍认可的大数据是具有4V,即Volume、Velocity、Variety、Veracity特征的数据集合,用简单描述具是大、快、多、真

  • Volume-生成和存储的数据量大
  • Velocity-数据产生和处理速度快
  • Variety-数据源和数据种类多样
  • V额让city-数据的真实性和高质量
Hadoop的构成:

四个基本模块

  • Hadoop基础功能库:支持其他Hadoop模块的通用程序包。通用包提供文件系统和操作系统级别的抽象,包含有必需的JavaArchive(JAR)和启动Hadoop集群所需的相关脚本。
  • HDFS:一个分布式文件系统,能够以高吞吐量访问应用的数据。
  • YARN:一个作业调度和资源管理框架。
  • MapReduce:一个基于YARN的大数据并行处理程序。

其他的相关项目

  • Ambari:基于web的工具,用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalo
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值