sax解析和dom解析的区别

最新推荐文章于 2023-05-28 15:13:41 发布

杨四郎2018

最新推荐文章于 2023-05-28 15:13:41 发布

阅读量463

点赞数

分类专栏： java 文章标签： sax解析和dom解析的区别

java 专栏收录该内容

103 篇文章 2 订阅

订阅专栏

sax解析和dom解析的区别

SAX：只能读，不能修改，只能顺序访问，适合对大型的XML的解析，解析速度快！
DOM：不仅能读，还能修改，而且能够实现随机访问，缺点是解析速度慢，只适合解析小型文档
解析速度慢（要在内存中生成节点树，而生成树是比较费时的）
SAX：应用于保存大量数据的XML（为什么要用XML保存大量的数据类容？答：可以实现异构系统
的数据访问，实现跨平台！）

DOM：一般应用与小型的配置XML，方便我们操作！

SAX是Simple API for XML的缩写，它并不是由W3C官方所提出的标准，可以说是“民间”的事实标准。实际上，它是一种社区性质的讨论产物。虽然如此，在XML中对SAX的应用丝毫不比DOM少，几乎所有的XML解析器都会支持它。

与DOM 比较而言，SAX是一种轻量型的方法。我们知道，在处理DOM的时候，我们需要读入整个的XML文档，然后在内存中创建DOM树，生成DOM树上的每个 Node对象。当文档比较小的时候，这不会造成什么问题，但是一旦文档大起来，处理DOM就会变得相当费时费力。特别是其对于内存的需求，也将是成倍的增长，以至于在某些应用中使用DOM是一件很不划算的事（比如在applet中）。这时候，一个较好的替代解决方法就是SAX。

SAX 在概念上与DOM完全不同。首先，不同于DOM的文档驱动，它是事件驱动的，也就是说，它并不需要读入整个文档，而文档的读入过程也就是SAX的解析过程。所谓事件驱动，是指一种基于回调（callback）机制的程序运行方法。（如果你对Java新的代理事件模型比较清楚的话，就会很容易理解这种机制了）

在XMLReader接受XML文档，在读入XML文档的过程中就进行解析，也就是说读入文档的过程和解析的过程是同时进行的，这和DOM区别很大。解析开始之前，需要向XMLReader注册一个ContentHandler，也就是相当于一个事件监听器，在 ContentHandler中定义了很多方法，比如startDocument()，它定制了当在解析过程中，遇到文档开始时应该处理的事情。当 XMLReader读到合适的内容，就会抛出相应的事件，并把这个事件的处理权代理给ContentHandler，调用其相应的方法进行响应。

DOM 简介：
DOM 对于 XML 的处理方式就是把整个 XML 读到内存中形成一棵树状结构，然后用各种方法对这棵数进行遍历、插入、删除、修剪等操作。因为 DOM 是 W3C 的正式标准，所有的语言都有支持 DOM 的解析器，包括 Java、C/C++、Perl、JavaScript 等等。DOM 的优点是信息量丰富（全部都在内存中），而且可以随机访问，尤其是在处理前后相互关联的元素时非常方便。DOM 的缺点是 XML 应用程序在处理 XML 之前必须先由 XML 解析器把整个 XML 读进内存并生成树状结构，如果 XML 非常大，例如 10M，解析的过程是非常慢的。如果再加上 XSLT 转换（这是一种必须要使用 DOM 的操作）这类同样耗费资源的操作，可能会耗尽系统的内存资源。所以标准 DOM 只适合于中小型 XML 的处理。

SAX 简介：
为了更好地解决大型 XML 处理的问题，Java 开发人员发明了 SAX。SAX 采用事件驱动的方式来处理 XML，它的处理方式是：为每一个元素、属性、内容（这些都认为是事件）定义一个回调方法，这个回调方法由应用程序提供。解析器以数据流的方式读入 XML，当遇到某个元素、属性、内容时就调用相应的回调方法。SAX 的优点是处理效率高，适合处理大型 XML。缺点是 SAX 对 XML 是只读的，不能够对 XML 进行写操作，而且 SAX 处理 XML 中前后相互关联的元素时也没有 DOM 方便，因为应用程序必须自己保留以前事件的状态信息。但是 SAX 还是取得了巨大的成功，后来 SAX 还被移植到了 C++ 等语言中。

DOM解析器把XML文档转化为一个包含其内容的树，并可以对树进行遍历。用DOM解析模型的优点是编程容易，开发人员只需要调用建树的指令，然后利用 navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用 DOM解析器的时候需要处理整个XML文档，所以对性能和内存的要求比较高，尤其是遇到很大的XML文件的时候。由于它的遍历能力，DOM解析器常用于 XML文档需要频繁的改变的服务中。
    SAX解析器采用了基于事件的模型，它在解析XML文档的时候可以触发一系列的事件，当发现给定的tag的时候，它可以激活一个回调方法，告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低，因为它让开发人员自己来决定所要处理的 tag.特别是当开发人员只需要处理文档中所包含的部分数据时，SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难，而且很难同时访问同一个文档中的多处不同数据。
     选择DOM还是选择SAX？ 对于需要自己编写代码来处理XML文档的开发人员来说， 选择DOM还是SAX 解析模型是一个非常重要的设计 决策。 DOM采用建立树形结构的方式访问XML文档，而SAX采用的事件模型。
     SAX 处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX还比它的替代者DOM快许多。
      DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于 它是基于信息层次的，因而DOM被认为是基于树或基于对象的。 DOM 以及广义的基于树的处理具有几个优点。首先，由于树在内存中是持久的，因此可以 修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航，而不是像SAX那样是一次性的处理。DOM使用起来 也要简单得多。