大数据英文考试复习——第五章(大数据存储概念)

目录

1.集群的概念

2.DFS与NOSQL

4.Sharding与Replication

6.CAP定理

7.ACID

8.BASE

9.大数据存储系统的衡量指标


1.集群的概念

(1)集群是大数据存储的基础设施;

(2)多台计算机组织成一个集群,其中每个计算机被称为节点

(3)集群可以将工作任务分配给不同的节点并行处理

translation:

(1) Cluster is the infrastructure of big data storage;

(2) Multiple computers are organized into a cluster, where each computer is called a node

(3) Clusters can assign work tasks to different nodes for parallel processing

2.DFS与NOSQL

DFS(Distributed File System):指分布式文件系统,是一种可以存储分布在集群节点上的大文件的文件系统

NOSQL(Not-only SQL):指非关系型数据库

总结:大数据可以存储在DFS和NOSQL数据库中

translation:

Big data can be stored in DFS and NOSQL databases

4.Sharding与Replication

Sharding:译为分片,指将一个大数据集划分成一个个更小的数据集的集合,这些分片分布在多个节点上,每个节点只负责存储其上的数据

Replication:译为复制,指将数据分布在多个节点上保存,被复制的数据称副本

translation:

1.Sharding refers to the division of a large data set into a collection of smaller data sets, and these shards are distributed across multiple nodes, each node is only responsible for storing data on its own

2.Replication refers to storing data on multiple nodes. The data to be replicated is called Replicas

6.CAP定理

CAP定理(CAP theorem)指在一个分布式系统中,无法同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三个属性。

一致性(Consistency)指的是在分布式系统中的所有节点上,对数据进行写操作后,所有节点都能读取到最新的数据。换句话说,系统保证数据的一致性。

可用性(Availability)指的是分布式系统在面对用户请求时,能够保证及时响应并提供服务。即系统具有高可用性,不会因为节点故障或网络问题而导致服务中断。

分区容错性(Partition tolerance)指的是分布式系统能够在节点之间发生网络分区(无法相互通信)的情况下,继续正常运行。系统可以通过分区容忍来实现高可用性和容错性。

translation:

The CAP theorem states that in a distributed system, Consistency, Availability, and Partition tolerance cannot be satisfied simultaneously.

7.ACID

是一种数据处理的原则,它包括:

  1. 原子性(Atomicity):事务是一个原子操作单元,要么全部执行成功,要么全部回滚。如果一个事务中的任何一部分操作失败,那么整个事务都会被回滚到最初的状态。

  2. 一致性(Consistency):事务在执行前后,数据库的状态应保持一致。事务的执行不会破坏数据库中定义的完整性约束,如主键、外键约束等。

  3. 隔离性(Isolation):多个并发执行的事务之间应该相互隔离,使得每个事务感觉就像在独立地执行。事务的执行结果对其他事务是不可见的,直到事务提交完成。

  4. 持久性(Durability):一旦事务提交成功,其所做的修改将永久保存在数据库中,并且对于系统的故障或重启也是持久的。

8.BASE

BASE是对ACID(原子性、一致性、隔离性、持久性)原则的一种补充和扩展,包括:

  1. 基本可用(Basically Available):系统保证大部分时间都是可用的,即使在异常情况下也能提供核心功能的访问。这与ACID中一致性的要求有所不同,BASE更关注系统的可用性。

  2. 软状态(Soft State):系统中的数据可以存在中间状态,并且在一段时间内是不一致的。在BASE中,允许数据在一段时间内处于不一致的状态,直到最终达到一致性。

  3. 最终一致性(Eventual Consistency):系统保证最终数据会达到一致的状态,但在某个时间点上可能是不一致的。与ACID中的强一致性相比,BASE更关注数据的最终一致性,而不要求实时一致性。

9.大数据存储系统的衡量指标

(1)Capacity:容量

(2)reliability:可靠性

(3)performance:性能

  • 32
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值