XML入门常见问题(4)

最新推荐文章于 2024-09-22 15:25:09 发布

zgqtxwd

最新推荐文章于 2024-09-22 15:25:09 发布

阅读量241

点赞数

分类专栏：网络技术文章标签： xml processing 文档

网络技术专栏收录该内容

3537 篇文章 0 订阅

订阅专栏

如何处理空白字符？

有些时候，XML 对象模型将显示包含空白字符的 TEXT 节点。空白字符被截断后，多半会带来一些混乱。例如下面的 XML 例子：

　　]>
　　Smith
　　John

生成下列树：

　　Processing Instruction: XML
　　DocType: person
　　ELEMENT: person
　　TEXT:
　　ELEMENT: lastname
　　TEXT:
　　ELEMENT: firstname
　　TEXT:　

　　名字和姓氏两边是只包含空白字符的 TEXT 节点，因为“person”元素的内容模型是 MIXED；它包含 #PCDATA 关键字。MIXED 内容模型指定元素之间可以有文本存在。因此，下面的内容也是正确的：

　　My last name is Smith and my first name is
　　John

　　结果是类似于下面的树：

　　ELEMENT: person
　　TEXT: My last name is
　　ELEMENT: lastname
　　TEXT: and my first name is
　　ELEMENT: firstname
　　TEXT:　

　　如果没有单词“is”之后和之前的空白字符，以及之后和单词“and”之前的空白字符，那么句子便无法理解。因此，对于 MIXED 内容模型来说，文字组合、空白字符和元素都是相关的。对于非 MIXED 内容模型来说则不是这样。

要使只有空白字符的 TEXT 节点消失，请从“person”元素声明中删除 #PCDATA 关键字：

结果是下面清晰的树：

　　Processing Instruction: XML
　　DocType: person
　　ELEMENT: person
　　ELEMENT: lastname
　　ELEMENT: firstname

XML 声明做什么？

XML 声明必须列在 XML 文档的顶部：

它指定下面的项目：

该文档是 XML 文档。在丢失或者还没有指定 MIME 类型时 MIME 探测器可以用它来检测文件是否为类型 text/XML。
　　文档符合 XML 1.0 规范。在以后 XML 有其他版本时这一点很重要。
　　文档字符编码。编码属性是可选的，默认为 UTF-8。
　　注意：XML 声明必须在 XML 文档的第一行，因此下面的 XML 文件：

产生下面的分析错误：

无效的 XML 声明。
　　行 0000002:　
　　位置　0000007: ------^
　　注意：XML 声明是可选的。如果需要在顶部指定注释或者处理指令，那么请不要放入 XML 声明。但是，默认的编码将为 UTF-8。