HBase知识回顾补充
1.什么是行存储,列存储?
请参考 : 传送门
2.什么是LSM存储结构?
LSM Tree(Log Structured Merge Trees)数据组织方式被应用于多种数据库,如LevelDB、HBase等 。
LSM tree存储实现思路:
\1. 当有写操作(或update操作)时,写入位于内存的buffer,内存中通过某种数据结构(如skiplist)保持key有序
\2. 一般的实现也会将数据追加写到磁盘Log文件,以备必要时恢复
\3. 内存中的数据定时或按固定大小地刷到磁盘,更新操作只不断地写到内存,并不更新磁盘上已有文件
\4. 随着越来越多写操作,磁盘上积累的文件也越来越多,这些文件不可写且有序
\5. 定时对文件进行合并操作(compaction),消除冗余数据,减少文件数量
LSM存储框架实现的思路较简单,其先在内存中保存数据,再定时刷到磁盘,实现顺序IO操作,通过定期合并文件减少数据冗余;文件有序,保证读取操作相对快速。
3.HBase到底是一个什么数据库?
是基于 LSM(Log-Structured Merge-Tree)结构存储的。
- 不同的列族存在不同的文件中(上面两个表格代表不同的 HFile);
- 整个数据是按照 Rowkey 进行字典排序的;
- 每一列数据在底层 HFile 中是以 KV 形式存储的;
- 相同的一行数据中,如果列族也一样,那么这些数据是顺序放在一起的。
HBase 其实不是列式数据库,因为同一行数据,如果列族也一样,这些数据是存储在相邻位置的;这和上面的列式存储不太一样。所以说,HBase 既不像行式存储,又不像列式存储。它其实更像是面向列族的存储数据库,因为不同行相同的列族数据是相邻存储的;而同一行不同列族的数据是存储在不同位置的。
所以 HBase is a *column-oriented database management system that runs on top of Hadoop Distributed File System (HDFS)* 这句话应该翻译成 HBase 是运行在 HDFS 之上的面向列的数据库管理系统。
5.什么是HBase的TTL?
生存时间(TTL)
参考 : https://www.jianshu.com/p/96bdc42e5f5a
ColumnFamilies 可以以秒为单位来设置 TTL(Time To Live)长度,一旦达到到期时间,HBase 将自动删除行。这适用于所有版本的行 – 即使是当前版本。在该 HBase 行的中编码的TTL时间以UTC指定。
仅在小型压缩时删除包含过期行的存储文件。设置 hbase.store.delete.expired.storefile 为 false 将禁用此功能。将最小版本数设置为 0 以外的值也会禁用此功能。CF默认的TTL值是FOREVER,也就是永不过期。
如何修改?
hdfs dfs -du -h /hbase/data/default 查看使用率
当一个明确的delete发生时,实际上,数据并没有被删除,只是增加了一个删除标记,在查询时,删除标记阻止记录返回。然后在major compaction的时候,实际的数据才会被删除,删除标记也会从StoreFile删除。如果数据由于TTL被删除,没有删除标记被创建,在压缩时,过期的数据会被过滤,不会被写回到压缩后的StoreFile文件中。
alter ‘student’,{NAME=>‘info3’, TTL => ‘5’}
hbase(main)> disable 'sale'
hbase(main)> drop 'sale'
hbase(main)> truncate 'sale'
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,cf testImport1 /sample1.csv
-Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,cf testImport1 /sample1.csv