Oracle 里面如何实现只回滚某个事务的一部分内容

昨天凌晨被电话吵醒,某客户的一套 11gR2 RAC 出现异常,正常启动之后很快就 crash 掉,并伴随相关 ora-00600 错误。

通过 alert log 发现如下信息:

85bcbc02386d13b418a090e484019c14.png

从上面的信息我们可以看出,smon 进程在对 object 进行事务 rollback 时,事务(例如114,16)存在异常,导致 smon 无法进行正常的工作,进而导致 smon 进程 dead,最后 pmon 进程将实例终止掉。


这里我们以最开始的一个事务(114,16)进行举例分析。

通过查看 trace 文件我们发现,该事务信息存在异常,如下:

aae0c97b35515e6e0f7a81752178b474.png

从 trace 的内容我们可以看出 smon 进程 rollback 时,发现该事务回滚时访问的 uba 的地址跟需要信息不匹配或者相关信息不正确,即该 undo block 中的信息可能异常异常。 XID 和 UBA 的结构解释如下:

xid:0×0072.010.0006fa20

0072: 回滚段编号,转换后为114,说明该事务使用的回滚段是第114号回滚段

010:事务槽编号(slot),转换后为16,说明对应 undo segment header 中的 transaction table 记录中的 index 是16

0006fa20:序号(同一个事务可能具有多个 SCN,用于区分一个事务中的多个操作)

uba:0x3288715c.1195.20

3288715c:undo block 地址,为16进制,转换为10进制为 847802716,即(202/553308)

1195:sequence number

20:undo record 编号

根据前面的信息判断,Oracle 利用 undo block 对事务进行 rollback 时,发现 undo block 中对应的记录不对,因此抛出 ora-00600 [ktubko_1] 错误。我们知道 Oracle 中的事务,必须保持其完整性,即一个事务要么成功,要么失败,不能只完成其中的部分操作(如果一个事务涉及到多个操作的 话)。那么能否实现只对事务中的部分操作进行 rollback 呢? 如果这个 case 中,能实现部分操作的 rollback,那么就可以顺利打开数据库。当然这里我的处理方式是通过 100513 event 来屏蔽 Smon 进程的 rollback 操作,open 之后再去维护相关的 Index。

我们知道 smon 在对一个事务进行回滚时,如果该事务涉及到多个操作,那么如何去保证顺序的回滚呢 ?其实是根据 undo chain 来的。当 rollback 到 rci 为0时就结束该事务的 rollback。 这里我举个测试例子,针对分区表带索引的操作。 当分区表的数据操作时,那么必然会维护 Index,因此同一个操作,在 undo record 中应该有2个 record 记录,下面我们来测试下,能否是否只回滚该事务的部分操作,如下是我的测试例子,生产库不要随便玩~~~~

针对分区表的 delete 操作,如上述的例子,很简单,由于客户这里遇到的情况是 insert,下面我来看下 insert 的情况。

06c35645e0ea4993b7926b22075e4615.png

4ce9c67073e954c7a0508a7c7aa6fa45.png

875f80e889edcec318e75e649f68fe01.png

f3124db0ffe63eee6f5d3d3377bca3ec.png

e24e848b93e2ebfd53b3859662b67545.png

591ffed94b08018d08d347880999a049.png

既然我们知道 Oracle 是根据 rci 进行回滚的,那么针对该事务,涉及到2个操作,第1个是 Rec 0×34 是针对 index 的操作。第2个操作是 Rec 0×33,这是针对该 index 所在的分区表的操作。 我们知道这是一个完整的事务,那么能否实现只回滚第1个操作,因为后面的 record 可能存在问题或异常,导致 smon 无法正常完成。 如果能实现只回滚部分事务,那么就可以顺利打开数据库。

实际上要实现这一点,很简单,我们仅仅需要修改 rci 值即可实现,当然,这样操作,实际上就牺牲了事务的完整性.

790a44da67f398bb4807a6adf97e2564.png

对我们来讲关键的地方是:0a160f33 正确的顺序是:330f160a 其中,33表示rci值,0f 是 slot,16是opcode,0a 表示 Layer 编号值。 下面我们来试试,能否实现我们的需求:

f0c6f21e96e9e24be7e8ff665feda0a3.png
badeaab895b04c40210b42c8b0c72f95.png

da4f5eca8137b9da737013a6901e6ca6.png

我们可以看到,顺利打开数据库。 你会发现我们前面最开始 insert 了一条记录,通过全表扫描能够查询到,如果走 Index 就不行。因为 Index 中的记录被 smon 进程 rollback 掉了。注意,如果在最开始的操作中,如果没有 flush buffer_cache,那么可能记录没有写到 table 中去,仍然会查询不到。

然而这种情况下,如果你去对表进行校验,会出现错误类似如下。我们正确的做法是,将 Index 进行重建,建议进行 drop,然后 create。 当然,这里如下你去看 trace,会看到类似如下的内容:

5b25ba9e4907cb7be38893ce4706ae2e.png

eba31429a17ff338f8f0d178b470a2df.png

很明显,牺牲事务的完整性之后,这个 table 和 Index 的信息不一致了。当然,我们要做的仅仅是重构 Index 即可。

如果是有针对 table 的操作,那么可能会丢失数据,需要权衡。

-----The End

文章来源:【love wife & love life —Roger 的 Oracle 技术博客】

配图来源:http://core0.staticworld.net/images/article/2014/09/it_leaders_from_marketing-100453420-primary.idge.jpg

e007dbe82e989c9971ef17b579a21c80.png

2015 Oracle 技术嘉年华10月31日前七折门票抢购进行中,长按上方图片识别二维码注册参会!

6c1a07a8489f1565204afe6c347e1605.png

点击“阅读原文”查看原文章详情。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值