1.面向行的数据布局
面向行的数据库按记录(行)来存储数据,每一行都具有相同的字段集合。单个数据记录的所有字段通常被一起读取,创建数据时一起写入数据库。可单独修改某个字段。
-
优点:需要按行访问数据时,可提高空间局部性。
-
缺点:在访问多个记录中某个字段的查询开销会很大。
2.面向列的数据布局
面向列的数据库垂直地对数据进行分区(按列分区)。
- 优点:访问某列字段时效率更高。
- 缺点:为了表示与某个数据关联的其他列中的数据点,需要每个值都持有一个键,会导致数据重复而且增加数据量。
3.区别与优化
-
使用行存储:读取到记录中大多数列都是需要的,工作负载主要由单条记录查询和范围扫描组成。
-
使用列存储:扫描跨越多行,或者在列的子集上进行计算聚合。
-
区别:数据存储方式不同;数据访问方式不同。
-
优化:在一次读取中,从同一列读取多个值可以显著提高缓存利用率和计算效率;将相同数据类型的值存储在一起可以提高压缩率(根据数据类型使用不同的压缩算法)。
4.宽列式存储
面向列的数据库不应与宽列式存储相混淆。
一个列分为若干列族,每个列族中按行存储干相同类型的数据。列族中每个列都由列键标识,列键是列族名称和限定符。