1. 零零散散的概念
1. 系统们:
(1)Hadoop生态系统实现了特别的计算模型 Mapreduce,其可以将计算任务(例如查询)分割为多个处理任务,分散到一群硬件机器上,再将这些任务的计算结果合并,得最终成果。HIVE会监控每一个任务,确保其完成。
(2)文件系统:Hadoop 分布式文件系统(HDFS)。每个数据块(block)会被冗余多份。
(3)HIVE 是基于 Hadoop的一个数据仓库工具,可将结构化的数据文件映射为一张数据库表,且提供了一系列工具来数据提取、转化、加载(ETL)。
2. HIVE 与关系型数据库的区别:
(1)存储系统:HIVE 使用 HDFS,关系型数据库使用本地的文件系统。
(2)HIVE 不支持记录级别的更新、插入或删除,但是可以通过查询生成新表或将查询结果导入到文件。
(3)关系型数据库为实时查询设计,HIVE为海量数据挖掘准备,故实时性较差。
(4)HIVE易扩展存储能力和计算能力。
(5)HIVE中没有键的概念,但是可以对表建立索引。
(6)传统数据库为写时模式,写入数据时检查数据模式;HIVE为读时模式,在查询时验证模式。
3. 关于 Mapreduce:
(1&#