如何解析xml,这就需要用到解析器
解析器是一段程序,它接受某些数据的物理表示,并将其转换为内存中的形式供程序作为整体使用。解析器在软件中无处不在。XML解析器是一种解析器,它被设计用来读取XML并为程序使用XML创建一种方法。有不同的类型,每一种都有其优点。除非程序简单而盲目地将整个XML文件作为一个单元进行复制,否则每个程序都必须实现或调用XML解析器。
解析器的主要类型有一些有趣的名称:SAX、DOM和pull。对于每种类型,都有一些优秀的实现,可以自由地用于各种语言,包括java、C++、C语言、VB(实际上,任何.NET语言)、PHP、Perl、Python、Ruby等等。
什么是SAX?
Stylus Studio中的SAX解析器
SAX代表XML的简单API。它的主要特点是,当它读取XML的每个单元时,它会创建一个调用程序可以使用的事件。这允许调用程序忽略它不关心的部分,只保留或使用它喜欢的。缺点是调用程序必须跟踪它可能需要的一切。SAX通常用于某些高性能应用程序或XML大小可能超过运行程序可用内存的区域。
设计灵感和随后的协调是由davemegginson完成的,他继续维护SAX项目网站。SAX标准目前的版本是2.0。
SAX在Stylus Studio®中随处可见。它用于为XSLT和XQuery映射器构建特定的XML结构表示,也广泛用于XML转换器中。
有许多SAX解析器的实现。Apache项目已经赞助了一些,包括CyrsEngon及其继任者XeCES(在C++和java中都可用)。作者Michael Kay博士自己写了一篇LFRESD——另一个SAX解析器。
什么是DOM?
Stylus Studio中的DOM解析器
DOM代表文档对象模型。它与SAX的不同之处在于它在内存中构建整个XML文档表示,然后将整个内存块交给调用程序。DOM可能是非常占用内存的;当您计算管理节点关系的开销时,您的内存使用量可能是原始文档的4倍到8倍。
Stylus Studio®中有些地方需要DOM。XML编辑器中的树视图以及所有XSLT和XQuery处理器,无论是什么品牌,但有两个明显的例外。底层的Saxon引擎和datadirectxquery都支持pull解析,这将在下面介绍。XML Pipeline deployer非常聪明;它知道每个组件的最佳表示形式是什么,并将努力工作以确保尽可能节省内存,避免从DOM到SAX再到SAX的不必要的转换。
实现包括XECES(又在C++和java中),以及微软的MSXML和系统.Xml类。
DOM(目前已达到3.0级)因过于复杂而受到广泛批评;它试图为任何实现它的语言维护相同的编程接口,即使它违反了该语言的一些约定。这导致了一些类似DOM的实现,这些实现更符合本地语言的理念。Java中的例子包括TinyTree(仅在Saxon中使用)、JDOM、DOM4J和XOM。
什么是pull解析器?
Stylus Studio中的XML拉式解析器
SAX是一个推送解析器,因为它将事件推送到调用应用程序。另一方面,拉解析器坐在那里等待应用程序调用。它们请求下一个可用的事件,应用程序基本上会循环,直到用完XML为止。
拉式解析器在流式应用程序中很有用,这些应用程序要么数据太大而无法放入内存,要么数据正被及时地组装起来,以便下一阶段使用它。它被设计用于大型数据源,与SAX返回每个事件不同,pull解析器可以选择跳过它不感兴趣的事件(或者在某些实现中,跳过文档的整个部分)。转换器设计为同时使用SAX和pull解析器接口。
在Java中,流式解析器目前的主要竞争对手似乎是StAX,而在Microsoft的.Net平台中系统.XmlXmlReader是内置的。
StAX-XML流式API
StAX pull解析器已经在Java世界中通过一个名为JSR-173的标准实现。Saxon和datadirectxquery都支持拉解析。在某些情况下,特别是在DataDirect的实现中,pull解析可以显著提高性能,但是这两个实现都经过了高度优化,因此对于任何给定的应用程序,在SAX、DOM和StAX之间进行选择都是一个需要测试的问题。由于在Stylus Studio®XML Enterprise Suite中,XML管道构造函数知道管道中每个节点的功能,因此会自动为您处理此选择。