大数据定义:
”大数据“这个名词是近年来随着以hadoop为代表的一系列分布式计算框架的产生发展流行起来的。所谓大数据就是一个数据集合,它的数据量和复杂度是传统的数据处理应用无法应对的。大数据带来的挑战包括数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、更新、和信息安全等。大数据的数据量至少是TB级别的,在当下的信息时代,PB级别也已较为常见。大数据包含的数据大小超越了普通软件工具的处理能力,换句话说,普通软件没办法在一个可容忍的时间范围内完成大数据的处理。
现在普遍认可的大数据是具有4V,即Volume、Velocity、Variety、Veracity特征的数据集合,用简单描述具是大、快、多、真
- Volume-生成和存储的数据量大
- Velocity-数据产生和处理速度快
- Variety-数据源和数据种类多样
- V额让city-数据的真实性和高质量
Hadoop的构成:
四个基本模块:
- Hadoop基础功能库:支持其他Hadoop模块的通用程序包。通用包提供文件系统和操作系统级别的抽象,包含有必需的JavaArchive(JAR)和启动Hadoop集群所需的相关脚本。
- HDFS:一个分布式文件系统,能够以高吞吐量访问应用的数据。
- YARN:一个作业调度和资源管理框架。
- MapReduce:一个基于YARN的大数据并行处理程序。
其他的相关项目:
- Ambari:基于web的工具,用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalo