一句话介绍大数据各种名词及其特点

搬码搬码

已于 2023-12-23 21:19:57 修改

阅读量940

点赞数 25

文章标签：大数据 hadoop nosql

于 2023-12-23 21:16:12 首次发布

本文链接：https://blog.csdn.net/weixin_45698683/article/details/135174562

版权

大数据：传统PC无法处理的。数据大、数据类型繁多、处理速度快、价值密度低。
Hadoop：能够对大数据进行分布式处理的软件框架、这种处理具有高效、可靠、可伸缩的特点。Hadoop的特点：高效率、高可靠、高容错、高可拓展。成本低、Linux运行支持多语言。
SSH:建立在应用层和传输层之间的传输协议。SSH可以防止远程管理过程中的信心泄露问题。
HDFS:是Hadoop的一种分布式文件系统。用于分布式储存大规模数据。将数据分割为小块存储在集群的多个节点上。
HDFS缺点：不适合低延迟数据访问、不能高效存储大量小文件、不支持多用户修改/写入。
HBase：是一个高可靠、高性能、可伸缩、面向列的分布式数据库。用来存储非/半结构化数据。可以水平拓展、用廉价计算机存储亿级行和百万列组成的表。
MapReduce：是一种用来处理和生成大数据的编程模型。Map阶段将输入数据映射为键值对；Reduce将相同的键值对进行合并和计算。
Spark：基于内存的分布式计算框架。RDD为其数据结构，代表弹性分布式数据集。
特点：处理数据快、支持多种数据处理。性能高（存储在内存），适用迭代算法、复杂计算。
Scala：多范式编程语言，语法简洁提供API、运行在JVM，兼容JAVA语言。
特点：强大并发性、函数式编程、支持分布式系统、语法简洁、兼容Java运行速度快。
NoSQL：非关系型数据库，适用于大规模和动态数据、与云计算紧密融合。
特点：数据库灵活、可拓展，可以处理非/半结构化数据。
MongoDB：基于分布式文件存储的数据库系统。将数据存储为文档，数据结构为键值对。
特点：可以添加节点来提高服务器性能。字段值可以包含其他文档、数组、文档数组。
事务ACID：原子：要么全部改要么都不改；一致：完成时数据状态一致、
隔离：事务修改不影响其他并发修改；持久：事务完成产生影响是永久性的。
云数据库：部署和虚拟化在云计算环境中的数据库。新兴共享基础架构的方法。
特点：高扩展、高可用、低成本、高性能。免维护、安全。支持资源有效分发等。
Hive：建立在Hadoop上的数据仓库工具，提供HQL类似SQL的查询语言，用于分析/处理大规模分布式数据。
特点：依赖HDFS存储数据、依赖MapReduce处理数据。本身不存储和处理数据。
数据仓库：存储和管理企业数据的中心化系统。维度表包含用于查询和分析的维度信息。而事实表包含于业务事件相关的度量。
特点：与数据湖相比更注重数据结构和存储预先处理的数据。
流数据:以大量、快速、时变的流形式持续到达。来源众多、复杂顺序颠倒。
特点：不关注存储、一旦处理，要么归档存储，要么丢弃。
流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值信息。
特点：高性能、海量式、实时性（低延迟）、分布式、易用性。可靠性。
Storm：免费开源的分布式实时计算系统，可以简单、高效、可靠的处理流数据。
特点：支持多种语言可整合：与队列、数据系统。简易API。可扩展。高容错重启故障节点。
Spark Streaming：将事实输入数据流以时间片为单位进行拆分为Dstream，每一段数据软化为Spark中RDD，Spark以类批处理的方式处理每个时间片的数据。
特点对比：SS不能实现毫秒级流计算、Storm可以。SS中的RDD数据集可以高效容错处理。得益于类批量处理，SS适用需要历史数据和实时数据联合分析的场合。

Hadoop有了HDFS和MapReduce为什么需要HBase？
Hadoop不能满足大规模数据事实处理的需求。HDFS面向批量访问，不支持随机访问。
传统数据库又面对大规模数据有不能扩展、性能不够、数据结构变化时一般需要停机维护。
因此出现了面向半结构化数据存储/处理的可拓展、低写入/延迟的Hbase。
Hadoop与Spark对比：
H适合批任务、大规模静态数据、S支持批处理、流处理、交互查询等多种场景。
相比H，S更加易用。
对于迭代算法和交互查询H性能较差（依赖磁盘存储）。
相比于S，H的实时处理支持比较差。
NoSQL与关系数据库的区别：
关系数据库:以关系代数为基础，有严格的标准，支持事务ACID，借助索引提升查询效率。扩展性较差，不支持海量数据存储，数据模型死板。不支持Web2.0应用。
NoSQL支持大规模存储、数据模型灵活，支持Web2.0 扩展性好。
复杂查询性能不高。不能事务强一致性。很难实现数据完整性。
Hive与传统数据库的区别：
插入：传统库支持单条和批量；Hive仅支持批量导入。
更新：传统支持；Hive数据仓库工具不支持更新，数据仓库存放静态数据。
索引：0.7后支持索引。没有键的概念。Hive创建的索引保存在另一个表中。
延迟：因构建在HDFS和MapReduce上相比之下延迟较高。普通SQL延迟1s Hive分钟级
扩展：Hive扩展性由于传统数据库。
所谓的CAP指的是：
C（Consistency）：一致性，是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分布式环境中，多点的数据是一致的，或者说，所有节点在同一时间具有相同的数据
A:（Availability）：可用性，是指快速获取数据，可以在确定的时间内返回操作结果，保证每个请求不管成功或者失败都有响应；
P（Tolerance of Network Partition）：分区容忍性，是指当出现网络分区的情况时（即系统中的一部分节点无法和其他节点进行通信），分离的系统也能够正常运行，也就是说，系统中任意信息的丢失或失败不会影响系统的继续运作。
CAP理论告诉我们，一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求，最多只能同时满足其中两个，正所谓“鱼和熊掌不可兼得”。