探究Native XML数据库技术（1）

最新推荐文章于 2024-11-01 23:08:29 发布

zyjie825

最新推荐文章于 2024-11-01 23:08:29 发布

阅读量389

点赞数

分类专栏：数据库文章标签： xml 数据库文档存储语言编程

数据库专栏收录该内容

3 篇文章 0 订阅

订阅专栏

XML技术从诞生之日就预示了它辉煌的未来，特别是随着近一、两年Web Service的蓬勃发展，XML越来越多地活跃在数据交换和存储领域。

XML数据量指数级的增长，要求更有效的数据管理能力和更快、更精确的查询。在传统数据库厂商宣布支持XML的同时，一种新的数据库技术，Native XML DBMS（NXD）也已崭露头角，打破了RDBMS传统数据库一统天下的局面，为数据库技术的研究提供了一次良好的发展契机。

本文将向您介绍XML和数据库的关系，NXD的技术特点，传统数据库和NXD的比较以及NXD的现状和前景。

XML和数据库的关系

XML是数据库吗？

XML文档具有“可自描述”、“无限嵌套”、“树形结构”等特点，因此在某种意义上，一个XML文档就是一个数据库或其中的一张表。

图1所示的XML文档Student.xml，描述了一个学生的信息：学号、姓名等。我们可以很方便的将其对应于传统RDBMS中一张二维表(table)：标签student为行，标签id、name等作为列。

<student>
<id>19803001</id>
<name>
<lastname>Johnson</lastname>
<firstname>Jack</firstname>
</name>
<email>jack@ipedo.com</email>
...
</student>

图1 Student.xml

我们可以把相关的XML文档放在一个目录下，利用文件系统来管理，提供查询、更改、增删操作。为更好地支持XML，W3C还制定了一些相关技术，如：文档模式(DTD、XML Schema)，查询语言（XPath、XQuery等），编程接口（DOM、SAX等），来方便开发应用程序。

但如果从更高的技术角度出发，就会发现，对XML文档简单的文件管理是远远不够的：低效的存储组织、索引查询技术，不提供事务、安全恢复机制，无法保证数据的完整性和一致性，没有并发控制、移植工具等。

数据库在XML应用中的角色

事实上，XML作为数据交换的标准，更着重于统一数据格式，而不是提供数据库的特性。因此在XML应用中，数据库作为数据管理的位置依然没有改变。

XML数据本身的树形结构不同于关系模型中的二维表结构，这种差别反映在数据库产品处理XML数据的技术上，形成两大阵营：XML-Enabled DBMS（XED）和Native XML DBMS（NXD)。

XED是在原有数据库基础上扩展了XML支持模块，完成XML数据和数据库之间的格式转换和传输。从存储粒度上，可以把整个XML文档作为RDBMS表中一行，或把XML文档进行解析后，存储到相应的表格中。为了支持W3C的一些XML操作标准，如XPath，XED提供一些新的原语（如Oracle9iR2增加了一些数据包来操作XML数据等），并优化了XML处理模块。

NXD则出现在XML数据处理领域内，一般采用层次数据存储模型，保持XML文档的树形结构，省掉了XML文档和传统数据库的数据转换过程。

两种文档类型

1.“以数据为中心”（data-centric）

“以数据为中心”的XML文档着重于文档中的数据，而非文档格式，如航班信息、销售定单、科学计算结果等。这种文档的数据一般由机器产生，来源于传统数据库中的数据。主要应用在电子商务、ERP、EAI等领域，集成不同数据源的数据，交换信息。

“以数据为中心”的XML文档具有以下特点：

· 结构化的数据

· 数据粒度大小适中

· 很少或没有混和内容(Mixed Content)

· 文档顺序(Document-order)不重要

图1 student.xml就是一个典型的“以数据为中心”的XML文档，记录了学生的信息。每个学生的信息都很规整，而且粒度合适，同级元素(element)间的顺序不重要，交换两个同级元素(element)并不会破坏文档的可读性。

2. “以文档为中心”（document-centric）

“以文档为中心”的XML文档主要是用来表示人类自然语言描述的数据，如电子邮件、书和用户手册。这种文档具有更复杂的结构，一般不是机器自动产生的。目前，Web上的大部分数据都可以表示成这种文档。

“以文档为中心”的文档具有以下特点：

· 半结构化或非结构化的数据

· 较多的混和内容(Mixed Content)

· 文档顺序(Document-order)重要

图2就是典型的一个“以文档为中心”的XML文档。

<Product>
   <Intro>
   The <ProductName>IPEDO Native XMLDB</ProductName> from
<Developer> Ipedo,Inc.</Developer> is <Summary>like a true native XML
Database, ...</Summary>
   </Intro>
...
</Product>

图2 products.xml

对于“以数据为中心”的XML文档，XED可以方便地将其中的数据抽取，存储在传统数据库中，但对于“以文档为中心”的XML文档则显得力不从心了。NXD由于无需在两种模型之间转换数据，因此在处理“以文档为中心”的XML文档就很有优势。

NXD的技术特点

NXD是专门为存储XML文档设计，也兼有一般数据库的特性，例如支持事务，并发控制，查询语言，安全机制，二次开发接口等。唯一的不同之处在于其内部存储模型是基于XML文档树形结构，而非关系模型。

Ronald Bourret在其“XML and Databases”一文中，对NXD有如下定义：

“NXD的逻辑模型建立在XML文档，而非文档中的数据之上，并根据它来存取数据。该模型至少包括元素(element)、属性(Attribute)、PCDATA和文档顺序，例如XPath的数据模型…… NXD的最小存储单位是XML文档，……”

一般认为，NXD应该具有以下几个特性：文档集合(Document Collection)，查询、更新，事务、锁和并发控制、二次开发接口等。

文档集合

很多NXD产品都支持“文档集合”的概念，就像文件系统中的一个目录或RDBMS中的一张表，一个“文档集合”把一类文档聚集在一起，方便用户操作。集合级别上的查询、修改操作都会反映到集合内的每个文档。

一般说来，一个“文档集合”关联一种模式。将文档加入到有模式的“文档集合”时，会对要加入的文档进行模式检查。只有符合“文档集合”模式的文档才可以加入。

不同于RDBMS中表必须具有模式，NXD还提供“无模式”的文档集合，即将一个文档放入该集合中时，不必检查该文档的模式。“无模式”的文档集合大大方便了用户存储格式很难统一，半结构化的XML文档。

查询语言

XPath和XQuery是W3C推荐的针对XML文档的查询语言。目前大部分NXD产品都支持XPath，。另外还有一些NXD提供专有的查询语言。

XPath是基于XML文档树形模型，给出从某个结点起的查询路径，搜索文档。目前，XPath作为数据库查询语言还有不少缺陷：不能分组、排序、连接等。

而XQuery更像一种编程语言，支持循环等逻辑，支持分组、排序、连接等。相对于传统数据库的标准SQL语句， XQuery在对XML数据的查询方面，是一种功能更强大、更易于编程的方法。

事务、锁和并发控制

几乎所有的NXD都支持事务处理。但是，锁的粒度通常比较大，对整个文档的而不是对文档片断（Fragment）的，所以多用户并发性的支持相对较低。具体的并发程度取决于应用程序以及"文档"的构成。

二次开发接口

几乎所有NXD都提供编程接口：提供数据库连接、浏览元数据、执行查询和返回结果的方法。返回结果通常是XML字符串、DOM树、返回文档的SAX解析器。如果查询返回结果是多个文档或文档片断（Fragment）的话，通常都会提供枚举这些结果的方法。对于以Client/Server模式运行的数据库产品，还可以将结果通过网络协议（如HTTP）回传给客户端。

Round-tripping

NXD一个重要特性是它为XML文档提供了Round-tripping：可以将XML文档存放在NXD中，而且再取回“同样的”文档。对于以“文档为中心”的应用程序来说非常重要，因为易被XED忽略的CDATA部分、实体应用、注释和处理指令是这些文档不可缺少的组成部分。特别是对于法律和医学领域中格式不允许随意窜改的数据文档。