一、 WHY ——为什么会出现 ASH 和 AWR ?
1. 10g 之前
用户的连接将产生会话,当前会话记录保存在v$session 中;处于等待状态的会话会被复制一份放在v$session_wait 中。当该连接断开后,其原来的连接信息在v$session 和v$session_wait 中就会被删除。这是10g 之前的状况。
2. v$session_wait_history 与ASH
若是一个普通的会话(我是指没有大量地耗费资源),则对于性能调整来说无足轻重。但若该会话在活动时大量占用了资源(比如:CPU ,内存,I/O 等),该会话信息的丢失,将无法评测当时的系统瓶颈究竟是什么。令DBA 高兴的是,oracle10g 中保留下了v$session_wait 中的这些信息。
在10g 中新出现了一个视图:v$session_wait_history 。这个视图保存了每个活动session 在v$session_wait 中最近10 次的等待事件。但这对于一段时期内的数据库性能状况的监测是远远不够的,为了解决这个问题,在10g 中还新添加了一个视图:v$active_session_history 。这就是ASH (active session history )。
典型的情况下, 为了诊断当前数据库的状态,需要最近的五到十分钟的详细信息。然而,由于记录session 的活动信息是很费时间和空间的,ASH 采用的策略是:保存处于等待状态的活动session 的信息,每秒从v$session_wait 中采样一次,并将采样信息保存在内存中。
3. AWR
注意,ASH 的采样数据是保存在内存中。而分配给ASH 的内存空间是有限的,当所分配空间占满后,旧的记录就会被覆盖掉;而且数据库重启后,所有的这些ASH 信息都会消失。这样,对于长期检测oracle 的性能是不可能的。在Oracle10g 中,提供了永久保留ASH 信息的方法,这就是AWR (auto workload repository )。
由于全部保存ASH 中的信息是非常耗费时间和空间的,AWR 采用的策略是:每小时对v$active_session_history 进行采样一次,并将信息保存到磁盘中,并且保留7 天,7 天后旧的记录才会被覆盖。这些采样信息被保存在视图wrh$_active_session_history 中。而这个采样频率(1 小时)和保留时间(7 天)是可以根据实际情况进行调整的,这就给DBA 们提供了更加有效的系统监测工具。
AWR 永久地保存系统的性能诊断信息,由SYS 用户拥有。一段时间后,你可能想清除掉这些信息;有时候为了性能诊断,你可能需要自己定义采样频率来获取系统快照信息。Oracle 10g 在包dbms_workload_repository 中提供了很多过程,通过这些过程,你可以管理快照并设定基线(baselines) 。
4. 小结
这样,我们就知道了ASH 和AWR 产生的原因和功能。ASH 保存了系统最新的处于等待的会话记录,可以用来诊断数据库的当前状态;而AWR 中的信息最长可能有1 小时的延迟,所以其采样信息并不能用于诊断数据库的当前状态,但可以用来作为一段时期内数据库性能调整的参考。
对于这些视图间的继承关系,eygle 给出了一个关系图:
图1 各个视图的层次
其中视图dba_hist_active_sess_history 是wrh$_active_session_history 和其他几个视图的联合展现,通常通过这个视图进行历史数据的访问。
二、 WHAT ——什么是 AWR ?
现在我们稍微详细地了解一下刚才所说内容。
1. ash 占用的内存大小
ASH 的采集信息保存在内存中,在旧的信息被采样到 AWR 中后,可被新采集的信息覆盖,重启 oracle 后该信息被清除。分配给 ASH 的内存大小可以查询到:
SQL> select pool, name, bytes/1024/1024 From v$sgastat where name like '%ASH %';
POOL NAME BYTES/1024/1024
------------- ------------- ---------------
shared pool ASH buffers 2
2. AWR 更正
为了便于描述和理解,在第一部分中,我们说AWR 就是保存ASH 中的信息。
其实,AWR 记录的信息不仅是ASH ,还可以收集到数据库运行的各方面统计信息和等待信息,用以诊断分析。
AWR 的采样方式是,以固定的时间间隔为其所有重要的统计信息和负载信息执行一次采样,并将采样信息保存在AWR 中。
可以这样说:ASH 中的信息被保存到了AWR 中的视图wrh$_active_session_history 中。ASH 是AWR 的真子集。
3. mmon 进程与mmnl 进程
快照由一个称为 MMON 的新的后台进程(及其从进程)以及MMNL 后台进程自动地每隔固定时间采样一次。我们先来看一下 10g 的概念指南中对这两个新增加的后台进程的介绍:
MMON 进程负责执行多种和管理相关(manageability-related )的后台任务,例如:
· 当某个测量值(metrics )超过了预设的限定值(threshold value )后提交警告
· 创建新的 MMON 隶属进程(MMON slave process )来进行快照(snapshot )
· 捕获最近修改过的 SQL 对象的统计信息
MMNL 进程负责执行轻量级的且频率较高的和可管理性相关的后台任务,例如捕获会话历史信息,测量值计算等。
AWR 的采样工作由MMON 进程每个1 小时执行一次,ASH 信息同样会被采样写出到AWR 负载库中。虽然ASH buffer 被设计为保留1 小时的信息,但很多时候这个内存是不够的,当ASH buffer 写满后,另外一个后台进程MMNL 将会主动将ASH 信息写出。
4. SYSAUX 表空间
这些采样数据都存储在SYSAUX 表空间中,并且以WRM$_* 和 WRH$_* 的格式命名。前一种类型存储元数据信息(如检查的数据库和采集的快照),后一种类型保存实际采集的统计数据。
SQL> select table_name from dba_tables where table_name like 'WRM$%';
TABLE_NAME
-----------------------
WRM$_WR_CONTROL
WRM$_SNAP_ERROR
WRM$_SNAPSHOT
WRM$_DATABASE_INSTANCE
WRM$_BASELINE
当 SYSAUX 表空间满后, AWR 将自动覆盖掉旧的信息,并在警告日志中记录一条相关信息:
ORA-1688: unable to extend table SYS.WRH$_ACTIVE_SESSION_HISTORY partition WRH$_ACTIVE_3533490838_1522 by 128 in tablespace SYSAUX
5. 采样频率和保留时间
可以通过查询视图 dba_hist_wr_control 或( wrm$_wr_control )来查询 AWR 的采样频率和保留时间。默认为每 1 小时采样一次,采样信息保留时间为 7 天。
SQL> select * from dba_hist_wr_control;
DBID SNAP_INTERVAL RETENTION TOPNSQL
---- ------------- ----------- ----------
1148 +00000 00:1 +00007 00:0 DEFAULT
SQL> select DBID, SNAP_INTERVAL, SNAPINT_NUM, RETENTION from wrm$_wr_control;
DBID SNAP_INTERVAL SNAPINT_NUM RETENTION
---------- ------------------ ----------- --------------------
1160732652 +00000 01:00:00.0 3600 +00007 00:00:00.0
6. 采样数据量
由于数据量巨大,把所有 ASH 数据写到磁盘上是不可接受的。一般是在写到磁盘的时候过滤这个数据,写出的数据占采样数据的 10% ,写出时通过 direct-path insert 完成,尽量减少日志生成,从而最小化数据库性能的影响。
7. 初始化参数statistics_level
AWR 的行为受到参数STATISTICS_LEVEL 的影响。这个参数有三个值:
BASIC :awr 统计的计算和衍生值关闭. 只收集少量的数据库统计信息.
TYPICAL :默认值.只有部分的统计收集. 他们代表需要的典型监控oracle 数据库的行为.
ALL : 所有可能的统计都被捕捉. 并且有操作系统的一些信息. 这个级别的捕捉应该在很少的情况下, 比如你要更多的sql 诊断信息的时候才使用.
三、 HOW ——如何使用 AWR ?
AWR 由 ORACLE 自动产生,但是也可以通过 DBMS_WORKLOAD_REPOSITORY 包来手工创建、删除和修改。可以使用 desc 命令查看该包中的过程。下面只介绍几个常用的:
1. 手工创建一个快照
SQL> select count(*) from wrh$_active_session_history;
COUNT(*)
----------
317
SQL> begin
2 dbms_workload_repository.create_snapshot();
3 end;
4 /
PL/SQL 过程已成功完成。
SQL> select count(*) from wrh$_active_session_history;
COUNT(*)
----------
320
2. 手工删除指定范围的快照
SQL> select * from wrh$_active_session_history where snap_id = 96;
SNAP_ID DBID INSTANCE_NUMBER SAMPLE_ID SAMPLE_TIME
---------- ---------- --------------- ---------- ----------------------------
96 1160732652 1 236930 06-10 月 -07 11.26.04.562 上午
96 1160732652 1 236930 06-10 月 -07 11.26.04.562 上午
96 1160732652 1 236930 06-10 月 -07 11.26.04.562 上午
SQL> begin
2 dbms_workload_repository.drop_snapshot_range(low_snap_id => 96, high_snap_id => 96, dbid => 1160732652);
3 end;
4 /
PL/SQL 过程已成功完成。
SQL> select * from wrh$_active_session_history where snap_id = 96;
未选定行
3. 修改采集时间和统计信息保留时间
PROCEDURE MODIFY_SNAPSHOT_SETTINGS
参数名称 类型 输入 / 输出默认值 ?
------------------------------ ----------------------- ------ --------
RETENTION NUMBER IN DEFAULT
INTERVAL NUMBER IN DEFAULT
TOPNSQL NUMBER IN DEFAULT
DBID NUMBER IN DEFAULT
通过修改 retention 参数可以修改 awr 信息的保留期限。默认的是七天 , 最小的值是一天。如果把 retention 设置为零 , 自动清除就关闭了 . 如果 awr 发现 sysaux 空间不够 , 它通过删除那些最老部分的快照来重新使用这些空间 . 同时 , 也会给 dba 发一条警告 , 告诉 sysaux 空间不够了(在警告日志中) .
通过修改 interval 参数可以修改 awr 信息的采样频率。最小的值是 10 分钟 , 默认的是 60 分钟 . 典型的值是 10,20,30,60,120 等等。把 interval 设为 0 则关闭自动捕捉快照 . 如将收集间隔时间改为 30 分钟一次。并且保留 5 天时间(注:单位都是为分钟):
SQL> select *from dba_hist_wr_control;
DBID SNAP_INTERVAL RETENTION TOPNSQL
---------- ------------------ -------------------------- -----------
1160732652 +00000 01:00:00.0 +00007 00:00:00.0 DEFAULT
SQL> exec dbms_workload_repository.modify_snapshot_settings(interval=>30, retention=>5*24*60);
PL/SQL 过程已成功完成。
SQL> SELECT *from dba_hist_wr_control;
DBID SNAP_INTERVAL RETENTION TOPNSQL
---------- ------------------- ------------------------- -----------
1160732652 +00000 00:30:00.0 +00005 00:00:00.0 DEFAULT
SQL>
4. 设置基线
基线( baseline )是一种机制 , 这样你可以在重要时间的快照信息集做标记。一个基线定义在一对快照之间 , 快照通过他们的快照序列号识别 . 每个基线有且只有一对快照。
一次典型的性能调整实践从采集量度的基准线集合、作出改动、然后采集另一个基准线集合开始。可以比较这两个集合来检查所作的改动的效果。在 AWR 中,对现有的已采集的快照可以执行相同类型的比较。
假定一个名称为 apply_interest 的高度资源密集的进程在下午 1:00 到 3:00 之间运行,对应快照 ID 95 到 98 。我们可以为这些快照定义一个名称为 apply_interest_1 的基准线:
SQL> select *From dba_hist_baseline;
未选定行
SQL> select * from wrm$_baseline;
未选定行
SQL> exec dbms_workload_repository.create_baseline(95, 98, 'apply_interest_1');
PL/SQL 过程已成功完成。
这一操作将快照从 95 到 98 编号,作为上面指定的基准线的一部分。查看现有的基准线:
SQL> select *from dba_hist_baseline;
DBID BASELINE_ID BASELINE_NAME START_SNAP_ID START_SNAP_TIME END_SNAP_ID END_SNAP_TIME
---------- ----------- ------------------------- ------------- ------------------------------------- ----------- ------------
1160732652 1 apply_interest_1 95 06-10 月 -07 11.00.05.375 上午 98 06-10 月 -07 01.44.58.062 下午
SQL> select *from wrm$_baseline;
DBID BASELINE_ID BASELINE_NAME START_SNAP_ID END_SNAP_ID
---------- ----------- ---------------------------- ------------- -----------
1160732652 1 apply_interest_1 95 98
SQL>
在一些调整步骤之后,我们可以创建另一个基准线 — 假设名称为 apply_interest_2 ,然后只为那些与这两条基准线相关的快照比较量度。
SQL> exec dbms_workload_repository.create_baseline(92, 94, 'apply_interest_2');
PL/SQL 过程已成功完成。
像这样把快照分隔在仅仅几个集合中有助于研究调整对于性能量度的影响。您可以在分析之后使用 drop_baseline() 来删除基准线;快照将保留(也可级联删除)。此外,当清除例程开始删除旧的快照时,与基准线相关的快照不会被清除,从而允许进行进一步的分析。
5. 删除基线
如果要删除一个基准线 :
SQL> exec dbms_workload_repository.drop_baseline(baseline_name=>'apply_interest_1', cascade=>false);
PL/SQL 过程已成功完成。
SQL> select *from wrh$_active_session_history where snap_id in (95,96,97,98);
SNAP_ID DBID INSTANCE_NUMBER SAMPLE_ID SAMPLE_TIME
---------- ---------- --------------- ---------- -------------------------------
95 1160732652 1 235360 06-10 月 -07 10.56.29.872 上午
95 1160732652 1 235230 06-10 月 -07 10.54.19.857 上午
95 1160732652 1 233130 06-10 月 -07 10.19.19.478 上午
95 1160732652 1 232830 06-10 月 -07 10.14.18.859 上午
95 1160732652 1 232250 06-10 月 -07 10.04.38.481 上午
97 1160732652 1 238600 06-10 月 -07 12.33.08.420 下午
97 1160732652 1 238600 06-10 月 -07 12.33.08.420 下午
97 1160732652 1 238600 06-10 月 -07 12.33.08.420 下午
97 1160732652 1 238600 06-10 月 -07 12.33.08.420 下午
97 1160732652 1 238600 06-10 月 -07 12.33.08.420 下午
97 1160732652 1 238600 06-10 月 -07 12.33.08.420 下午
SNAP_ID DBID INSTANCE_NUMBER SAMPLE_ID SAMPLE_TIME
---------- ---------- --------------- ---------- -------------------------------
97 1160732652 1 238420 06-10 月 -07 11.50.55.686 上午
97 1160732652 1 238230 06-10 月 -07 11.47.45.687 上午
98 1160732652 1 239140 06-10 月 -07 01.42.00.976 下午
98 1160732652 1 239140 06-10 月 -07 01.42.00.976 下午
98 1160732652 1 239140 06-10 月 -07 01.42.00.976 下午
98 1160732652 1 239140 06-10 月 -07 01.42.00.976 下午
98 1160732652 1 239140 06-10 月 -07 01.42.00.976 下午
98 1160732652 1 239130 06-10 月 -07 01.27.04.161 下午
98 1160732652 1 239130 06-10 月 -07 01.27.04.161 下午
98 1160732652 1 239130 06-10 月 -07 01.27.04.161 下午
已选择 21 行。
SQL> exec dbms_workload_repository.drop_baseline(baseline_name=>'apply_interest_2', cascade=>true);
PL/SQL 过程已成功完成。
SQL> select *from wrh$_active_session_history where snap_id in (92,93,94);
未选定行
SQL>
6. 生成报表
awr 有个报表生成机制 , 可以对存储在 workload 资料库的统计产生汇总报表。这个分析对一段时间的统计做的。这个报表生成机制很像 statspack 。
可以使用脚本 awrrpt.sql 或 awrrpti.sql 来查看 AWR 报告(非常类似 statspack 中的 spreport.sql ),这两个脚本都在目录 $ORACLE_HOME/rdbms/admin 中。 Awrrpt.sql 脚本可以显示指定快照 id 范围的诊断信息,报告可以保存为文本文件或 HTML 文件; awrrpti.sql 脚本与 awrrpt.sql 类似,唯一的不同就是在 awrrpti.sql 脚本中,你可以指定数据库 ID 和实例 ID (作为参数)。报告包括如下诊断信息:
[1] Report summary
[1] Wait events statistics
[1] SQL statistics
[1] Instance activity statistics
[1] I/O statistics
[1] Buffer pool statistics
[1] Advisory statistics
[1] Wait statistics
[1] Undo statistics
[1] Latch statistics
Segment statistics
[1] Dictionary cache statistics
[1] Library cache statistics
[1] SGA statistics
[1] Resource limit statistics
[1] init.ora parameters
通过运行 $ORACLE_HOME/rdbms/admin 目录中的 awrrpt.sql 脚本, AWR 的功能可以立即通过它从采集的统计数据和量度中生成的报表得到最好的说明。这个脚本显示所有的现有 AWR 快照并请求两个特定的快照作为时间间隔边界。它产生两种类型的输出:文本格式(类似于 Statspack 报表的文本格式但来自于 AWR 信息库)和默认的 HTML 格式(拥有到部分和子部分的所有超链接),从而提供了非常用户友好的报表。
运行这个脚本必须要 select any dictionary 权限 . 这个脚本提示你输入选项如怎么和在哪里生成这个报表 :
* 首先 , 你需要指明你要生成 html 还是 text 格式的
* 要选择快照的天数 : 输入天数 , 和你最近的快照 , 可选的 , 你可以使用 dba_hist_snapshot 表来看你要用哪个 snap_id.
* 开始 snap_id 和终止 snap_id, 这个快照对定义你的报表产生的时间间隔 .
* 文件名称 , 报告写的用户指定的文件 .
现在运行该脚本以查看报表,从而对 AWR 的报表功能有一个直观的了解。
SQL> @D:/oracle/product/10.2.0/db_1/RDBMS/ADMIN/awrrpt.sql
Current Instance
~~~~~~~~~~~~~~~~
DB Id DB Name Inst Num Instance
----------- ------------ -------- ------------
1160732652 ORCL 1 orcl
Specify the Report Type
~~~~~~~~~~~~~~~~~~~~~~~
Would you like an HTML report, or a plain text report?
Enter 'html' for an HTML report, or 'text' for plain text
Defaults to 'html'
输入 report_type 的值 :
Type Specified: html
Instances in this Workload Repository schema
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
DB Id Inst Num DB Name Instance Host
------------ -------- ------------ ------------ ------------
* 1160732652 1 ORCL orcl YUECHAOTIAN
Using 1160732652 for database Id
Using 1 for instance number
Specify the number of days of snapshots to choose from
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Entering the number of days (n) will result in the most recent
(n) days of snapshots being listed. Pressing <return> without
specifying a number lists all completed snapshots.
输入 num_days 的值 : 4
Listing the last 4 days of Completed Snapshots
Snap
Instance DB Name Snap Id Snap Started Level
------------ ------------ --------- ------------------ -----
orcl ORCL 81 04 10 月 2007 07:24 1
83 05 10 月 2007 13:34 1
84 05 10 月 2007 16:19 1
85 05 10 月 2007 17:00 1
86 05 10 月 2007 18:00 1
87 05 10 月 2007 19:10 1
88 05 10 月 2007 20:00 1
89 05 10 月 2007 21:00 1
90 05 10 月 2007 22:00 1
91 05 10 月 2007 23:00 1
95 06 10 月 2007 11:00 1
97 06 10 月 2007 13:27 1
98 06 10 月 2007 13:44 1
99 06 10 月 2007 14:00 1
100 06 10 月 2007 14:30 1
101 06 10 月 2007 15:00 1
102 06 10 月 2007 15:30 1
Specify the Begin and End Snapshot Ids
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
输入 begin_snap 的值 : 100
Begin Snapshot Id specified: 100
输入 end_snap 的值 : 102
End Snapshot Id specified: 102
Specify the Report Name
~~~~~~~~~~~~~~~~~~~~~~~
The default report file name is awrrpt_1_100_102.html. To use this name,
press <return> to continue, otherwise enter an alternative.
输入 report_name 的值 :
Using the report name awrrpt_1_100_102.html
<HTML><HEAD><TITLE>AWR Report</TITLE>
……(省略结果)
End of Report
</BODY></HTML>
Report written to awrrpt_1_100_102.html
SQL>
将产生的 HTML 脚本粘贴出来,用 IE 打开看看:一个指定时间段的完整的数据库性能报告就展现在我们面前了。下面是部分截图:
图 2 AWR 报告截图
7. statspack 和 awr
在过去 , 你可以手工的使用 statspack 来获得历史数据 . 你也可以继续在 oracle10g 中使用 statspack, 但是如果你要使用 workload 资料库 , 那你需要更改你的应用程序代码。 statspack 用户应该转到 10g 的 workload 资料库。
这里不支持数据从 statspack 移植到 workload 资料库 . 同样 , 也没有视图来模拟 statspack.
在 rac 环境 , 每个快照包含集群的所有的节点 . 每个节点的快照数据有相同的 snap_id, 但靠实例 id 来区分。一般地 ,rac 中的快照是在同一时间捕捉的。
你也可以使用 db control 来进行手工的快照。手工的快照支持系统产生的自动快照。手工的快照可以自定义在你要捕捉的系统行为的两个时间点跟自动的不一致的时候,从而拥有更大的灵活性。