XML简明教程

最新推荐文章于 2020-03-18 18:30:48 发布

yangdelong

最新推荐文章于 2020-03-18 18:30:48 发布

阅读量1.8k

点赞数

文章标签： xml 文档 encoding html table vbscript

XML指南——XML编码

http://www.webasp.net/article/18/17765.htm

XML文档可以包含外文字符比如挪威语或者法语（中文当然也可以！这一部分还是不能照原文翻译，下面有些内容是我自己写的）
为了让你的解析器能够明白这些字符，你必须在XML文档中统一的字符编码标准。

Windows 95/98 记事本
Windows 95/98 记事本不能以Unicode的编码格式保存文件。
可以使用记事本来编辑和保存包含了外文字符的XML文档 (比如：挪威语或者法语或者中文)
<?xml version="1.0"?>
<note>
<from>小奀</from>
<to>小林</to>
<message>晚上一起去火锅呀</message>
</note>

但是如果你用浏览器打开这个用记事本编辑过的XML文档，将会出现一个错误open it with IE 5.0。

在Windows 95/98 记事本中使用编码
Windows 95/98 记事本编辑XML文件必须进行编码属性设置。
为了避免发生错误，可以在XML文档声明中加上一个encoding属性，指明此XML文档的编码类型，但是不要使用Unicode编码。
下面的编码类型不会导致错误, 并且汉字显示正常:
<?xml version="1.0" encoding="gb2312"?>

下面的编码类型不会导致错误, 并且汉字显示正常:
<?xml version="1.0" encoding="gbk"?>

下面的编码类型不会导致错误, 并且汉字显示不正常(乱码):
<?xml version="1.0" encoding="windows-1252"?>

下面的编码类型不会导致错误, 并且汉字显示不正常(乱码):
<?xml version="1.0" encoding="ISO-8859-1"?>

下面的编码类型不会导致错误,并且汉字显示正常:
<?xml version="1.0" encoding="UTF-8"?>

下面的编码类型会导致错误:
<?xml version="1.0" encoding="UTF-16"?>

使用Windows 2000 记事本
Windows 2000 记事本可以以Unicode编码格式保存文件。
Windows 2000 的记事本支持Unicode字符集。如果使用Win2000的记事本以Unicode的编码格式保存XML文档(请注意这里在XML声明中没有编码信息):
<?xml version="1.0"?>
<note><from>小奀</from><to>小林</to><message>晚上一起去火锅呀</message></note>

下面这个文件; note_encode_none_u.xml, 在IE5.0+中将不会出现错误，但如果你使用网景Netscape 6.2，就可能出错。读者比较 note_encode_none.xml 和 note_encode_none_u.xml这两个文件，如果单独看他们各自的源文件，是没有区别的，但为什么一个能显示，一个不能显示呢？答案就是Unicode字符集。

Windows 2000 记事本编码
Windows 2000记事本还可以以"UTF-16"编码格式保存文件。
如果你在XML文档中声明了编码属性而又以Unicode编码格式保存文件，将可能发生错误。
下面的代码将会导致错误:
<?xml version="1.0" encoding="windows-1252"?>

下面的代码将会导致错误:
<?xml version="1.0" encoding="ISO-8859-1"?>

下面的代码将会导致错误:
<?xml version="1.0" encoding="UTF-8"?>

下面这个文件; note_encode_utf16_u.xml, 将会在IE5.0+中显示正常，在网景Netscape 6.2浏览器中将会出现错误。
<?xml version="1.0" encoding="UTF-16"?>

错误信息
当时用IE5.0或者更高版本浏览XML文档时，可能会遇到两中不同的编码错误:
在文本内容中发现一个非法字符(An invalid character was found in text content)。
如果你的XML文档和你的XML文档的编码格式不匹配就可能导致错误发生。通常情况是，XML文档包含一些“非英文”字符，并且使用了单字节编码的编辑器，而且没有在XML文档的声明中设置XML文档的编码格式。

不支持从当前的编码格式转换成另一种编码格式（Switch from current encoding to specified encoding not supported）。
如果XML文档以Unicode/UTF-16编码格式保存，但是XML文档的声明中却设置了编码格式是一些单字节的编码（比如 Windows-1252, ISO-8859-1 或者 UTF-8）；或者XML文档以单字节编码格式保存，但是XML文档的声明中却设置了编码格式是一些Unicode/UTF-16的编码形式，这样两种情况都会导致错误发生。

结论
结论:在保存XML文档之前在XML文档的声明中设置文档的编码格式，我的一些关于避免错误发生的建议:
使用一种支持Unicode编码格式的编辑器。
确信你知道自己正在使用那种编码格式。
在XML文档中使用属性声明设置编码格式。

XML指南——XML CDATA

http://www.webasp.net/article/18/17764.htm

在XML文档中的所有文本都会被解析器解析。

只有在CDATA部件之内的文本会被解析器忽略。

解析数据

XML 解析器通常情况下会处理XML文档中的所有文本。

当XML元素被解析的时候，XML元素内部的文本也会被解析:

<message>This text is also parsed</message>

XML解析器这样做的原因是XML元素内部可能还包含了别的元素，象下面的例子，name元素内部包含了first和last两个元素:

<name><first>Bill</first><last>Gates</last></name>

解析器会认为上面的代码是这样的:

<name>
<first>Bill</first>
<last>Gates</last>
</name>

转义字符

不合法的XML字符必须被替换为相应的实体。

如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误，因为解析器会认为这是一个新元素的开始。所以不应该象下面那样书写代码:

<message>if salary < 1000 then</message>

为了避免出现这种情况，必须将字符"<" 转换成实体，象下面这样:

<message>if salary &lt; 1000 then</message>

下面是五个在XML文档中预定义好的实体:

<	<	小于号
>	>	大于号
&	&	和
'	'	单引号
"	"	双引号

实体必须以符号"&"开头，以符号";"结尾。

注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的，为了减少出错，使用实体是一个好习惯。

CDATA部件

在CDATA内部的所有内容都会被解析器忽略。

如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样，那么最好把他们都放到CDATA部件中。

一个 CDATA 部件以"<![CDATA[" 标记开始，以"]]>"标记结束:

<script>
<![CDATA[
function matchwo(a,b)
{
if (a < b && a < 0) then
{
return 1
}
else
{
return 0
}
}
]]>
</script>

在前面的例子中，所有在CDATA部件之间的文本都会被解析器忽略。

CDATA注意事项:

CDATA部件之间不能再包含CDATA部件（不能嵌套）。如果CDATA部件包含了字符"]]>" 或者"<![CDATA[" ，将很有可能出错哦。

同样要注意在字符串"]]>"之间没有空格或者换行符。

XML指南——XML 命名空间

http://www.webasp.net/article/18/17663.htm

XML 命名空间提供了一种避免元素命名冲突的方法。

命名冲突

因为XML文档中使用的元素不是固定的，那么两个不同的XML文档使用同一个名字来描述不同类型的元素的情况就可能发生。而这种情况又往往会导致命名冲突。请看下面两个例子

这个 XML 文档在table元素中携带了水果的信息:

<table>
<tr>
<td>Apples</td>
<td>Bananas</td>
</tr>
</table>

这个 XML 文档在table元素中携带了桌子的信息(家具，不能吃的哦):

<table>
<name>African Coffee Table</name>
<width>80</width>
<length>120</length>
</table>

如果上面两个XML文档片断碰巧在一起使用的话，那么将会出现命名冲突的情况。因为这两个片断都包含了<table>元素，而这两个table元素的定义与所包含的内容又各不相同。

使用前缀解决命名冲突问题

下面的XML文档在table元素中携带了信息:

<h:table>
<h:tr>
<h:td>Apples</h:td>
<h:td>Bananas</h:td>
</h:tr>
</h:table>

下面的XML文档携带了家具table的信息:

<f:table>
<f:name>African Coffee Table</f:name>
<f:width>80</f:width>
<f:length>120</f:length>
</f:table>

现在已经没有元素命名冲突的问题了，因为这两个文档对各自的table元素使用了不同的前缀，table元素在两个文档中分别是(<h:table> 和<f:table>)。

通过使用前缀，我们创建了两个不同的table元素。

使用命名空间

下面的XML文档在table元素中携带了信息:

<h:table xmlns:h="http://www.w3.org/TR/html4/">
<h:tr>
<h:td>Apples</h:td>
<h:td>Bananas</h:td>
</h:tr>
</h:table>

下面的XML文档携带了家具table的信息:

<f:table xmlns:f="http://www.w3schools.com/furniture">
<f:name>African Coffee Table</f:name>
<f:width>80</f:width>
<f:length>120</f:length>
</f:table>

在上面两个例子中除了使用前缀外，两个table元素都使用了xmlns属性，使元素和不同的命名空间关联到一起。

命名空间属性

命名空间属性一般放置在元素的开始标记处，其使用语法如下所示:

xmlns:namespace-prefix="namespace"

在上面的例子中，命名空间定义了一个Internet 地址:

xmlns:f="http://www.w3schools.com/furniture"

W3C 命名规范声明命名空间本身就是一个统一资源标示符，Uniform Resource Identifier (URI)。

当我们在元素的开始标记处使用命名空间时，该元素所有的子元素都将通过一个前缀与同一个命名空间相互关联。

注意：用来标识命名空间的网络地址并不被XML解析器调用，XML解析器不需要从这个网络地址中查找信息，该网络地址的作用仅仅是给命名空间一个唯一的名字，因此这个网络地址也可以是虚拟的，然而又很多公司经常把这个网络地址值象一个真实的Web页面，这个地址包含了关于当前命名空间更详细的信息。
可以访问http://www.w3.org/TR/html4/.

统一资源标识符

通用资源标识符（A Uniform Resource Identifier (URI)）是一个标识网络资源的字符串。最普通的URI应该是统一资源定位符Uniform Resource Locator (URL)。URL用于标识网络主机的地址。另一方面，另一个不常用的URI是通用资源名字Universal Resource Name (URN)。在我们的例子中，一般使用的是URLs。

既然前面的例子使用的URL地址来标识命名空间，我们可以确信这个命名空间是唯一的。

默认的命名空间

定义一个默认的XML命名空间使得我们在子元素的开始标记中不需要使用前缀。他的语法如下所示:

<element xmlns="namespace">

下面的XML文档在table元素中包含了水果的信息:

<table xmlns="http://www.w3.org/TR/html4/">
<tr>
<td>Apples</td>
<td>Bananas</td>
</tr>
</table>

下面的XML文档包含了家具table的信息:

<table xmlns="http://www.w3schools.com/furniture">
<name>African Coffee Table</name>
<width>80</width>
<length>120</length>
</table>

使用命名空间

档开始使用XSL的时候,就会发现命名空间使用的是如此频繁。XSL样式单主要用于将XML文档转换成类似于HTML文件的格式。

如果看一下下面的XSL文档，就会发现有很多标记都是HTML标记。那些标记并不是HTML标记，是加了前缀的XSL,这个XSL前缀由命名空间"http://www.w3.org/TR/xsl"所标识:

<?xml version="1.0" encoding="ISO-8859-1"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/TR/xsl">
<xsl:template match="/">
<html>
<body>
<table border="2" bgcolor="yellow">
<tr>
<th>Title</th>
<th>Artist</th>
</tr>
<xsl:for-each select="CATALOG/CD">
<tr>
<td><xsl:value-of select="TITLE"/></td>
<td><xsl:value-of select="ARTIST"/></td>
</tr>
</xsl:for-each>
</table>
</body>
</html>
</xsl:template>
</xsl:stylesheet>

XML指南——微软的XML解析器

http://www.webasp.net/article/18/17655.htm

XML解析器可以读取、更新、创建、操作一个XML文档。

使用XML解析器
微软的XML解析器是和IE5.0+浏览器捆绑在一起的。
一旦你安装了IE5.0,那么就获得了XML解析器。这个浏览器除了被浏览器内部调用外，还可以在脚本中或者程序中调用。这个解析器的特点是支持与程序设计语言无关的编程模型，他支持以下技术:
JavaScript, VBScript, Perl, VB, Java, C++ 等等
W3C XML 1.0 和 XML DOM
DTD 和 XML文档验证
如果浏览器使用JavaScript作为脚本语言,那么利用下面的代码可以创建XML文档对象:
var xmlDoc=new ActiveXObject("Microsoft.XMLDOM")

如果浏览器使用VBScript作为脚本语言,那么利用下面的代码可以创建XML文档对象:
set xmlDoc=CreateObject("Microsoft.XMLDOM")

如果在ASP程序中使用VBScript脚本语言，那么就可以使用下面的代码形式:
set xmlDoc=Server.CreateObject("Microsoft.XMLDOM")

将XML文档载入解析器
使用脚本代码可以将XML文档载入解析器。
下面的代码可以将一个XML文档载入解析器:
<script type="text/javascript">
var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
xmlDoc.async="false"
xmlDoc.load("note.xml")
// ....... processing the document goes here
</script>

第二行代码创建Microsoft XML解析器的实例。
第三行代码关闭异步载入，确保XML解析器在把XML文档完全载入以前不会对XML文档进行解析。
第四行则告诉解析器需要载入的XML文档名字是note.xml。

把纯XML文档由字符载入解析器
解析器可以从一个文本字符串中载入XML文本。
下面的代码演示了将文本字符串载入解析器:
<script type="text/javascript">
var text="<note>"
text=text+"<to>Tove</to><from>Jani</from>"
text=text+"<heading>Reminder</heading>"
text=text+"<body>Don’t forget me this weekend!</body>"
text=text+"</note>"
var xmlDoc = new ActiveXObject("Microsoft.XMLDOM")
xmlDoc.async="false"
xmlDoc.loadXML(text)
// ....... processing the document goes here
</script>

注意这里载入字符串使用的是"loadXML()"方法）（而不是前面用过的"load()"方法)， "loadXML()"是用于载入字符串，"load()"是用于载入XML文档。

使用JavaScript语言显示XML数据
可以使用JavaScript语言来显示XML数据。
JavaScript (或者 VBScript)可以从XML文档中导入数据，并将这些数据在HTML页面中显示出来。

XML指南——XML数据岛

http://www.webasp.net/article/18/17564.htm

使用IE5.0或者更高的版本，XML数据可以以数据岛的形式嵌入HTML页面。

在HTML页面中嵌入XML数据
使用非官方标准的<xml>标记可以将XML数据嵌入到HTML页面中。
XML数据可以象下面的例子那样嵌入HTML页面:

<xml id="note">
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>
</xml>

或者象下面这样嵌入外部单独的XML文件:
<xml id="note" src="note.xml">
</xml>

注意那个<xml>标记是一个HTML元素，而不是一个XML元素。

数据绑定
XML数据岛可以绑定到HTML元素上（比如表格）。
在下面的例子中，一个XML数据岛（ID=cdcat）被从外部XML文档载入。一个HTML的表格绑定到此数据岛上。HTML表格内部的span元素使用datafld属性和XML文档相应的XML元素相互绑定。

XML指南——察看 XML 文件

http://www.webasp.net/article/18/17563.htm

原始的XML文件可以用IE 5.0 (或者更高的版本)或者Netscape 6来察看,但是如果希望让XML文档象Web页那样显示就必须添加一些额外的显示信息。

察看XML文件
我们可以使用IE5.0 (或者更高的版本)来浏览XML文档。你可以单击一个超链接或者是在浏览器的地址栏中输入URL地址，或者是在文件夹中双击XML文档。如果你用 IE打开XML文档后发现浏览器用带颜色的标识XML文档的根元素和子元素，XML元素的左边有一个"+"号，那么你可以单击这个“+”号，展开这个元素的下一级结构；如果元素的左边有一个"-"号，那么你也可以单击这个“-”号，收拢这个元素的下一级结构，如果你愿意察看XML文档的源文件，那么你可以在右键菜单中选择“察看源文件”。
我们也可以用Netscape 6来打开XML文档，并且也可以用右键选择“察看源文件” 当你用Netscape 6打开XML文档后，浏览器将用带颜色的代码显示根元素和子元素。

<?xml version="1.0" encoding="ISO-8859-1" ?>
- 
- <breakfast_menu>
- <food>
  <name>Belgian Waffles</name>
  <price>$5.95</price>
  <description>two of our famous Belgian Waffles with plenty of real maple syrup</description>
  <calories>650</calories>
  </food>
- <food>
  <name>Strawberry Belgian Waffles</name>
  <price>$7.95</price>
  <description>light Belgian waffles covered with strawberries and whipped cream</description>
  <calories>900</calories>
  </food>
- <food>
  <name>Berry-Berry Belgian Waffles</name>
  <price>$8.95</price>
  <description>light Belgian waffles covered with an assortment of fresh berries and whipped cream</description>
  <calories>900</calories>
  </food>
- <food>
  <name>French Toast</name>
  <price>$4.50</price>
  <description>thick slices made from our homemade sourdough bread</description>
  <calories>600</calories>
  </food>
- <food>
  <name>Homestyle Breakfast</name>
  <price>$6.95</price>
  <description>two eggs, bacon or sausage, toast, and our ever-popular hash browns</description>
  <calories>950</calories>
  </food>
  </breakfast_menu>
为什么XML在浏览器中的显示是这个样子呢？
单纯的XML文档并不包含如何显示数据的信息。
既然XML标记是由XML文档作者“创造”和“发明”的，那么我们不可能知道一个<table>标记是指HTML中的表格还是一个木桌子。
在没有任何额外的信息指示如何显示数据的情况下，IE浏览器一般以树状视图的形式显示XML数据。
在下面的及格小节中，我们将描述一些解决XML文档显示问题的方案，包括CSS, XSL, JavaScript,和XML数据岛。

XML指南——XML 确认

http://www.webasp.net/article/18/17561.htm

符合语法的XML文档称为结构良好的XML文档。
通过DTD验证的XML文档称为有效的XML文档。

"结构良好的" XML文档
一个结构良好的XML文档应该使用正确的语法。
一个结构良好的XML文档应该遵守XML语法规则，前面一章给出的例子就是一个结构良好的XML文档：
<?xml version="1.0" encoding="ISO-8859-1"?>
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

"有效的" XML文档
一个有效的XML文档应该遵守DTD的描述。
一个有效的XML文档也是一个结构良好的XML文档，同时还必须符合DTD的规则。
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE note SYSTEM "InternalNote.dtd">
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

XML DTD
DTD定义了XML文档中可用的合法元素。
DTD的意图在于定义XML文档的合法建筑模块。他通过定义一系列合法的元素决定了XMl文档的内部结构。结构良好的XML文档不一定是有效的XML文档,但有效的XML文档一定是结构良好的XML文档。如果你想了解更多关于DTD的知识可以参考DTD 指南。

XML Schema
XML Schema(XML模式)是基于XML的DTD的替代品。
W3C使得DTD和Schema可以相互替代，读者可以在Schema 指南中了解到更多信息。

错误
XML文档中发生的错误将导致XML程序停止。
W3C的XML规范声明：如果程序在处理XML文档中发现一个有效的错误，那么此程序应该终止。这就是XML软件相对于容易编写的原因。所有的XML文档地都应该是协调一致的。
在HTML中，HTML文件可能包含很多错误，（比如一个元素有开始标记没有结束标记）这也是HTML浏览器体积之所以很大的一个原因，当他们发现错误的时候，他们有各自不同的方法来决定此HTML文件应该如何显示。
在XML中决不会发生这种情况。

XML指南——XML 属性

http://www.webasp.net/article/18/17560.htm

跟HTML一样，XML元素再开始标记处可以由元素属性。
属性通常包含一些关于元素的额外信息。

XML属性
XML元素可以拥有属性。
你一定还记得这样的HTML代码吧: <IMG SRC="computer.gif">。src是img元素的属性，提供了关于img元素的额外信息。
在HTML中 (在XML中也一样)元素的属性提供了元素的额外信息。
<img src="computer.gif">
<a href="demo.asp">

书信提供的信息通常不是数据的一部分。在下面的例子中，类型和数据毫不相关，但对于操作这个元素的软件来说却相当重要。
<file type="gif">computer.gif</file>

引用风格"female" 还是 ’female’?
属性值必须用引号引着。单引号、双引号都可以使用。例如一个人的性别，person元素可以这样写：
<person sex="female">

也可以这样写:
<person sex=’female’>

上面的两种写法在一般情况下是没有区别的，使用双引号的应用更普遍一些。但是在某些特殊的情况下就必须使用单引号，比如下面的例子：
<gangster name=’George "Shotgun" Ziegler’>

使用子元素还是使用属性
数据既可以存储在子元素中也可以存储在属性中。
请看下面的例子:
<person sex="female">
<firstname>Anna</firstname>
<lastname>Smith</lastname>
</person>

<person>
<sex>female</sex>
<firstname>Anna</firstname>
<lastname>Smith</lastname>
</person>

在第一个例子中，sex是一个属性，在第二个例子中，sex则是一个子元素。这两个例子都提供了相同的信息。
什么时候用属性，什么时候用子元素没有一个现成的规则可以遵循。我的经验是属性在HTML中可能相当便利，但在XML中，你最好避免使用。

我喜欢的风格
我更愿意把数据存储到子元素中。
下面的三个XML文档包含了相同的信息：
第一个例子使用了data属性：
<note date="12/11/99">
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

第二个例子使用了data元素:
<note>
<date>12/11/99</date>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

第三个例子使用了扩展的data元素: (这就是我推荐的样式):
<note>
<date>
<day>12</day>
<month>11</month>
<year>99</year>
</date>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

避免使用属性？
应该避免使用属性么？
这里有一些使用属性引发的问题：
属性不能包含多个值（子元素可以）。
属性不容易扩展。
属性不能够描述结构（子元素可以）。
属性很难被程序代码处理。
属性值很难通过DTD进行测试。
如果使用属性来存储数据，那么所编写的XML文档一定很难阅读和操作。尽量使用元素来描述数据，仅使用属性来描述那些与数据关系不大的额外信息。
不要象下面的例子那样（如果你那么做了说明你还没有明白上面的观点）。
<note day="12" month="11" year="99"
to="Tove" from="Jani" heading="Reminder"
body="Don’t forget me this weekend!">
</note>

属性规则的例外
规则总是有例外的。
我的关于属性的规则也有一个例外：
有些时候应该为一个元素设计一个ID引用，通过这个ID可以引用存取特定的XML元素，就象HTML中的name和id属性一样。请看下面的例子：
<messages>
<note ID="501">
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>
<note ID="502">
<to>Jani</to>
<from>Tove</from>
<heading>Re: Reminder</heading>
<body>I will not!</body>
</note>
</messages>

在上面的例子中，ID属性就相当于一个计数器，或者是一个唯一的标识符，在XML文档中标识不同的便条信息，他不是便条信息的一部分。
我们所要尽力向读者说明的是：元数据（与数据有关的数据）应该以属性的方式存储，而数据本身应该以元素的形式存储。

XML指南——XML元素

http://www.webasp.net/article/18/17559.htm

XML元素是可以扩展的，它们之间有关联。
XML元素有简单的命名规则。

XML元素是可以扩展的
XML文档可以被扩展一边携带更多的信息。
请看下面的XML便条例子：
<note>
<to>Lin</to>
<from>Ordm</from>
<body>Don’t forget me this weekend!</body>
</note>

让我们来设想一个能够读取此XML文档的并能解读其中XML元素（<to>, <from>, 和<body>）的软件，可能的输出如下：
MESSAGE
To: Lin
From: Ordm
Don’t forget me this weekend!

我们再来设想，如果便条的作者Ordm在这个XML文档中加入一些额外的信息，如下所示：
<note>
<date>2002-12-24</date>
<to>Lin</to>
<from>Ordm</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

那么原来的应用程序会中断或者崩溃么？
不会。应用程序仍然会正确的解读<to>, <from>, 和<body> 等元素，并且产生同样的输出。
XML文档是可以扩展的！

XML元素是相互关联的
XML元素之间是父元素和子元素的关系。
为了更好的理解XML术语，必须了解XML元素之间的关系如何，以及元素的内容是如何被描述的。
设想有这样一本书：
署名: XML 指南
第一章: XML入门简介
什么是HTML
什么是XML
第二章: XML语法
XML元素必须有结束标记
XML元素必须正确的嵌套

我们可以用XML文档来描述这本书：
<book>
<title>XML 指南</title>
<prod id="33-657" media="paper"></prod>
<chapter>XML入门简介
<para>什么是HTML</para>
<para>什么是XML</para>
</chapter>
<chapter>XML语法
<para>XML元素必须有结束标记</para>
<para>XML元素必须正确的嵌套</para>
</chapter>
</book>

在上面的代码中，Book元素是XML文档的根元素，title元素和chapter元素是book元素的子元素。Book元素是title元素和chapter元素的父元素。title元素，prod元素和chapter元素是平级元素，因为他们都有同一个父元素。

XML元素的内容
XML元素有不同的内容。
XML元素指的是从该元素的开始标记到结束标记之间的这部分内容。
XML元素有元素内容，混合内容，简单内容或者空内容。每个元素都可以拥有自己的属性。
在上面的例子中，book元素有元素内容，应为book元素包含了其它的元素。Chapter元素有混合内容，因为它里面包含了文本和其他元素。para元素有简单的内容，因为它里面仅有简单的文本。prod元素有空内容，因为他不携带任何信息。
在上面的例子中，只有prod元素有属性，id属性值是33-657，media属性值是paper。

XML元素命名
XML元素命名必须遵守下面的规则：
元素的名字可以包含子母，数字和其他字符。
元素的名字不能以数字或者标点符号开头。
元素的名字不能以XML(或者xml，Xml,xMl...)开头。
元素的名字不能包含空格。
自己“发明”的XML元素还必须注意下面一些简单的规则：
任何的名字都可以使用，没有保留字（除了XML），但是应该使元素的名字具有可读性，名字使用下划线是一个不错的选择。
例如: <first_name>, <last_name>.
尽量避免使用“-”，“.”，因为有可能引起混乱。
只要你愿意元素的名字可以很长，但也不要太夸张了哦。命名应该遵循简单易读的原则，例如：<book_title>是一个不错的名字，而<the_title_of_the_book>则显得罗嗦了。
XML文档往往都对应着数据表，我们应该尽量让数据库中的字段的命名和相应的XML文档中的命名保持一致，这样可以方便数据变换。
非英文/字符/字符串也可以作为XML元素的名字，例如<蓝色理想><经典论坛>这都是完全合法的名字。但是有一些软件不能很好的支持这种命名，所以尽量使用英文字母来命名。
在XML元素命名中不要使用":"，因为XML命名空间需要用到这个十分特殊的字符。

XML指南——XML 语法

http://www.webasp.net/article/18/17558.htm

XML的语法规则既简单又严格，非常容易学习和使用。
正因为如此，编写读取和操作XML的软件也是相对容易的事情。

一个XML文档的例子
XML文档使用了自描述的和简单的语法。
<?xml version="1.0" encoding="ISO-8859-1"?>
<note>
<to>Lin</to>
<from>Ordm</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

文档的第1行:XML声明——定义此文档所遵循的XML标准的版本，在这个例子里是1.0版本的标准，使用的是ISO-8859-1 (Latin-1/West European)字符集。
文档的第2行是根元素（就象是说“这篇文档是一个便条”）：
<note>

文档的第3--6行描述了根元素的四个子节点（to, from, heading,和 body）：
<to>Lin</to>
<from>Ordm</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>

文档的最后一行是根元素的结束：
</note>

你能从这个文档中看出这是Ordm给Lin留的便条么？难道能不承认XML是一种美丽的自描述语言么？

所有的XML文档必须有一个结束标记
在XML文档中, 忽略结束标记是不符合规定的。
在HTML文档中，一些元素可以是没有结束标记的。下面的代码在HTML中是完全合法的：
<p>This is a paragraph
<p>This is another paragraph

但是在XML文档中必须要有结束标记，象下面的例子一样：
<p>This is a paragraph</p>
<p>This is another paragraph</p>

注意: 你可能已经注意到了，上面例子中的第一行并没有结束标记。这不是一个错误。因为XML声明并不是XML文档的一部分，他不是XML元素，也就不应该有结束标记。

XML标记都是大小写敏感的
这与HTML不一样, XML标记是大小写敏感的。
在XML中, 标记<Letter>与标记<letter>是两个不同的标记。
因此在XML文档中开始标记和结束标记的大小写必须保持一致。
<Message>This is incorrect</message>   //错误的
<message>This is correct</message>     //正确的

所有的XML元素必须合理包含
在XML中不允许不正确的嵌套包含。
在HTML中，允许有一些不正确的包含，例如下面的代码可以被浏览器解析：
<b><i>This text is bold and italic</b></i>

在XML中所有元素必须正确的嵌套包含，上面的代码应该这样写：
<b><i>This text is bold and italic</i></b>

所有的XML文档必须有一个根元素
XML文档中的第一个元素就是根元素。
所有XML文档都必须包含一个单独的标记来定义，所有其他元素的都必须成对的在根元素中嵌套。XML文档有且只能有一个根元素。
所有的元素都可以有子元素，子元素必须正确的嵌套在父元素中，下面的代码可以形象的说明：
<root>
<child>
<subchild>.....</subchild>
</child>
</root>

属性值必须使用引号""
在XML中,元素的属性值没有引号引着是不符合规定的。
如同HTML一样，XML元素同样也可以拥有属性。XML元素的属性以名字/值成对的出现。XML语法规范要求XML元素属性值必须用引号引着。请看下面的两个例子，第一个是错误的，第二个是正确的。
<?xml version="1.0" encoding="ISO-8859-1"?>
<note date=12/11/99>
<to>Lin</to>
<from>Ordm</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

<?xml version="1.0" encoding="ISO-8859-1"?>
<note date="12/11/99">
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don’t forget me this weekend!</body>
</note>

第一个文档的错误之处是属性值没有用引号引着。
正确的写法是: date="12/11/99". 不正确的写法: date=12/11/99.

使用XML,空白将被保留
在XML文档中，空白部分不会被解析器自动删除。
这一点与HTML是不同的。在HTML中，这样的一句话：
"Hello              my name is Ordm"将会被显示成：“Hello my name is Ordm”,
因为HTML解析器会自动把句子中的空白部分去掉。

使用XML, CR / LF 被转换为 LF
使用 XML, 新行总是被标识为 LF（Line Feed，换行）。
你知道打字机是什么么？呵呵，打字机是在上个世纪里使用的一种专门打字的机器。^&^
当你用打字机敲完一行字后，你通常不得不再把打字头移动到纸的左端。
在Windows应用程序中，文本中的新行通常标识为 CR LF (carriage return, line feed，回车，换行)。在Unix应用程序中，新行通常标识为 LF。还有一些应用程序只使用CR来表示一个新行。

XML中的注释
在XML中注释的语法基本上和HTML中的一样。


XML并没有什么特别的哦
XML确实没有什么特别的地方。他只是一些用尖括号扩在一起的普通的纯文本。
编辑普通文本的软件也可以编辑XML文档。
然而在一个支持XML的应用程序中，XML标记往往对应着特殊的操作，有些标记可能是可见的，而有些标记则可能不会显示出来，而不会有什么特殊的操作。

相关文章：

· 在C#中使用XML指南之读取XML

· C#中使用XML——编写XML

· C#中使用XML——基于DOM的案例分析

· XML指南——XML 浏览器（Netscape、Explorer）

yangdelong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XML简明教程

XML指南——XML编码http://www.webasp.net/article/18/17765.htm XML文档可以包含外文字符比如挪威语或者法语（中文当然也可以！这一部分还是不能照原文翻译，下面有些内容是我自己写的）为了让你的解析器能够明白这些字符，你必须在XML文档中统一的字符编码标准。 Windows 95/98 记事本 Windows 95/98 记事本不能以Unic
复制链接

扫一扫