一、delete
1、delete是DML,执行delete操作时,每次从表中删除一行,并且同时将该行的的删除操作记录在redo和undo表空间中以便进行回滚(rollback)和重做操作,但要注意表空间要足够大,需要手动提交(commit)操作才能生效,可以通过rollback撤消操作。
2、delete可根据条件删除表中满足条件的数据,如果不指定where子句,那么删除表中所有记录。
3、delete语句不影响表所占用的extent,高水线(high watermark)保持原位置不变。
二、truncate
1、truncate是DDL,会隐式提交,所以,不能回滚,不会触发触发器。
2、truncate会删除表中所有记录,并且将重新设置高水线和所有的索引,缺省情况下将空间释放到minextents个extent,除非使用reuse storage。不会记录日志,所以执行速度很快,但不能通过rollback撤消操作(如果一不小心把一个表truncate掉,也是可以恢复的,只是不能通过rollback来恢复)。
3、对于外键(foreignkey )约束引用的表,不能使用 truncate table,而应使用不带 where 子句的 delete 语句。
注意:**truncate 不能删除外部表!**因为外部表里的数据并不是存放在Hive Metastore中。创建表的时候指定了EXTERNAL,外部表在删除分区后,hdfs中的数据还存在,不会被删除。因此要想删除外部表数据,可以把外部表转成内部表或者删除hdfs文件。
4、truncate table不能用于参与了索引视图的表。
三、drop
1、drop是DDL,会隐式提交,所以,不能回滚,不会触发触发器。
2、drop语句删除表结构及所有数据,并将表所占用的空间全部释放。
3、drop语句将删除表的结构所依赖的约束,触发器,索引,依赖于该表的存储过程/函数将保留,但是变为invalid状态。
4、删除库
hive> drop database if exists 库名;
注意如果库里有表会报错
解决这个错误有两种方法:一、就是很简单的将所有表先删除完,再删除库。
另外一种就是使用下述的方法:使用cascade关键字执行强制删库。drop database if exists 库名 cascade;
参考链接
5、删除hive分区
hive > alter table table_name drop partition (partition_name='分区名')
四、总结
1、在速度上,一般来说,drop> truncate > delete。
2、在使用drop和truncate时一定要注意,虽然可以恢复,但为了减少麻烦,还是要慎重。
3、如果想删除部分数据用delete,注意带上where子句,回滚段要足够大;
如果想删除表,当然用drop;
如果想保留表而将所有数据删除,如果和事务无关,用truncate即可;
如果和事务有关,或者想触发trigger,还是用delete;
如果是整理表内部的碎片,可以用truncate跟上reuse stroage,再重新导入/插入数据。
对比项 | delete | drop | truncate |
---|---|---|---|
语义 | 根据条件删除表中的行,不会减少表或索引占用的空间 | 删除表中所有数据及表结构,释放表占用的所有空间 | 删除表中所有数据,不删除表结构,将表及索引占用空间恢复到原始大小 |
类型 | DML (事务,可回滚) | DDL (非事务,不可回滚) | DDL (非事务,不可回滚) |
语法 | DELETE FROM 表名称 WHERE 列名称 = 值 | DROP TABLE 表名称;drop database if exists 库名; | TRUNCATE TABLE 表名称;truncate操作用于删除指定表中的所有行,相当于delete from table where 1=1 |
执行速度 | 慢 | 最快 | 中间 |
使用范围 | 可作用于表、视图等 | 可作用于表、视图等 | 只能是表 |
触发器 | 有对应的触发器,则执行时会触发 | 不能对自增的主键进行归1,不会触发触发器 | 对自增的主键进行归1,不会触发触发器 |