当 XML(扩展标记语言)于1998年2月被引入软件工业界时,它给整个行业带来了一场风暴。有史以来第一次,这个世界拥有了一种用来结构化文档和数据的通用且适应性强的格式,它不仅仅可以用于 WEB,而且可以被用于任何地方。XML被设计用来传输和存储数据。这与HTML不同,HTML被设计用来显示数据。
(1)什么是XML
* XML指可扩展标记语言(EXtensible Markup Language……
* XML是一种标记语言,很类似HTML。
* XML的设计宗旨是传输数据,而非显示数据。
* XML标签没有被预定义。您需要自行定义标签。
* XML被设计为具有自我描述性。
* XML是W3C的推荐标准。
(2)XML与HTML的主要差异
* XML不是HTML的替代。
* XML和HTML为不同的目的而设计:
* XML被设计为传输和存储数据,其焦点是数据的内容。
* HTML被设计用来显示数据,其焦点是数据的外观。
* HTML旨在显示信息,而XML旨在传输信息。
(3)没有任何行为的XML
XML是不作为的。也许这有点难以理解,但是XML不会做任何事情。XML被设计用来结构化、存储以及传输信息。下面是John写给George的便签,存储为XML:
- <note>
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
(4)XML仅仅是纯文本
XML没什么特别的。它仅仅是纯文本而已。有能力处理纯文本的软件都可以处理XML。不过,能够读懂XML的应用程序可以有针对性地处理XML的标签。标签的功能性意义依赖于应用程序的特性。通过XML您可以发明自己的标签。上例中的标签没有在任何XML标准中定义过(比如<to>和<from>)。这些标签是由文档的创作者发明的。这是因为XML没有预定义的标签。在HTML中使用的标签(以及HTML的结构)是预定义的。HTML文档只使用在HTML标准中定义过的标签(比如 <p> 、<h1> 等等)。XML允许创作者定义自己的标签和自己的文档结构。
XML不是对HTML的替代。XML是对HTML的补充。XML不会替代HTML,理解这一点很重要。在大多数web应用程序中,XML用于传输数据,而HTML用于格式化并显示数据。
对XML最好的描述是:XML是独立于软件和硬件的信息传输工具。
(5)XML无所不在
当我们看到XML标准突飞猛进的开发进度,以及大批的软件开发商采用这个标准的日新月异的速度时,真的是不禁感叹这真是令人叹为观止。目前,XML在Web中起到的作用不会亚于一直作为Web基石的HTML。XML无所不在。XML是各种应用程序之间进行数据传输的最常用的工具,并且在信息存储和描述领域变得越来越流行。
2、XML的用途
XML用于简化数据的存储和共享。
(1)XML把数据从HTML分离
如果你需要在HTML文档中显示动态数据,那么每当数据改变时将花费大量的时间来编辑HTML。通过XML,数据能够存储在独立的XML文件中。这样你就可以专注于使用HTML 进行布局和显示,并确保修改底层数据不再需要对HTML进行任何的改变。
通过使用几行JavaScript,你就可以读取一个外部XML文件,然后更新HTML中的数据内容。
(2)XML简化数据共享
在真实的世界中,计算机系统和数据使用不兼容的格式来存储数据。XML数据以纯文本格式进行存储,因此提供了一种独立于软件和硬件的数据存储方法。这让创建不同应用程序可以共享的数据变得更加容易。
(3)XML简化数据传输
通过XML,可以在不兼容的系统之间轻松地交换数据。对开发人员来说,其中一项最费时的挑战一直是在因特网上的不兼容系统之间交换数据。由于可以通过各种不兼容的应用程序来读取数据,以XML交换数据降低了这种复杂性。
(4)XML简化平台的变更
升级到新的系统(硬件或软件平台),总是非常费时的。必须转换大量的数据,不兼容的数据经常会丢失。XML数据以文本格式存储。这使得XML在不损失数据的情况下,更容易扩展或升级到新的操作系统、新应用程序或新的浏览器。
(5)XML使您的数据更有用
由于XML独立于硬件、软件以及应用程序,XML使您的数据更可用,也更有用。不同的应用程序都能够访问您的数据,不仅仅在HTML页中,也可以从XML数据源中进行访问。通过XML,您的数据可供各种阅读设备使用(手持的计算机、语音设备、新闻阅读器等),还可以供盲人或其他残障人士使用。
(6)XML用于创建新的Internet语言
很多新的Internet语言是通过XML创建的。其中的例子包括:
XHTML - 最新的HTML版本
WSDL - 用于描述可用的web service
WAP和WML - 用于手持设备的标记语言
RSS - 用于RSS feed的语言
RDF和OWL - 用于描述资源和本体
SMIL - 用于描述针针对web的多媒体
当今,XML是非常重要的技术,并且开发项目正在使用这些基于XML的技术:
* 用XML Schema定义XML的结构和数据类型
* 用XSLT来转换XML数据
* 用SOAP来交换应用程序之间的XML数据
* 用WSDL来描述网络服务
* 用RDF来描述网络资源
* 用XPath和XQuery来访问XML数据
* 用SMIL来定义图形
(7)假如开发人员都是理性的
假如他们都是理性的,就让未来的应用程序使用XML来交换数据吧。未来也许会出现某种字处理软件、电子表格程序以及数据库,它们可以使用纯文本格式读取彼此的数据,而不需要使用任何的转换程序。
3、XML树结构
XML文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶”。XML使用简单的具有自我描述性的语法。下面是一个XML文档实例:
- <?xml version="1.0" encoding="ISO-8859-1"?>
- <note>
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
XML文档必须包含根元素。该元素是所有其他元素的父元素。XML文档中的元素形成了一棵文档树。这棵树从根部开始,并扩展到树的最底端。所有元素均可拥有子元素,所有元素均可拥有文本内容和属性(类似HTML中)。
下面的XML表示一个书店的数据:
- <bookstore>
- <book category="COOKING">
- <title lang="en">Everyday Italian</title>
- <author>Giada De Laurentiis</author>
- <year>2005</year>
- <price>30.00</price>
- </book>
- <book category="CHILDREN">
- <title lang="en">Harry Potter</title>
- <author>J K. Rowling</author>
- <year>2005</year>
- <price>29.99</price>
- </book>
- <book category="WEB">
- <title lang="en">Learning XML</title>
- <author>Erik T. Ray</author>
- <year>2003</year>
- <price>39.95</price>
- </book>
- </bookstore>
4、XML语法规则
XML的语法规则很简单,且很有逻辑。这些规则很容易学习,也很容易使用。
(1) 所有XML元素都须有关闭标签。这不同于HTML。 注意您也许已经注意到XML声明没有关闭标签,这不是错误。声明不属于XML本身的组成部分。它不是XML元素,也不需要关闭标签。
(2) XML标签对大小写敏感 。
(3) XML必须正确地嵌套 。
(4) XML文档必须有根元素 。
(5) XML的属性值须加引号。双引号或单引号都可以。如果属性值内部有双引号作为数据一部分,则属性值要用单引号括起。 例如:
- <note date="08/08/2008">
- <to>George</to>
- <from>John</from>
- </note>
这样会产生XML错误:<message>if salary < 1000 then</message>
为了避免这个错误,请用实体引用来代替 "<" 字符:<message>if salary < 1000 then</message>
在XML中,有5个预定义的实体引用:
< < 小于
> > 大于
& & 和号
' ' 单引号
" " 引号
注意在XML中,严格来说只有字符 "<" 和 "&" 确实是非法的。大于号是合法的,但是用实体引用来代替它是一个好习惯。
(7)XML中的注释。在XML中编写注释的语法与HTML的语法很相似。如<!-- This is a comment -->
(8) XML中的空格会被保留 。HTML 会把多个连续的空格字符裁减(合并)为一个,而在XML中,文档中的空格不会被删节。
(9) XML以LF存储换行 。在Windows应用程序中,换行通常以一对字符来存储:回车符(CR)和换行符(LF)。这对字符与打字机设置新行的动作有相似之处。在Unix应用程序中,新行以LF字符存储。而Macintosh应用程序使用CR来存储新行。
5、 XML命名规则
XML元素必须遵循以下命名规则:
* 名称可以含字母、数字以及其他的字符
* 名称不能以数字或者标点符号开始
* 名称不能以字符 “xml”(或者 XML、Xml)开始
* 名称不能包含空格
可使用任何名称,没有保留的字词。下面是一些最佳命名习惯。
使名称具有描述性。使用下划线的名称也很不错。名称应当比较简短,比如<book_title>,而不是<the_title_of_the_book>。
避免"-"字符。如果您按照这样的方式进行命名"first-name",一些软件会认为你需要提取第一个单词。
避免"."字符。如果您按照这样的方式进行命名"first.name",一些软件会认为"name"是对象"first" 的属性。
避免":"字符。冒号会被转换为命名空间来使用(稍后介绍)。
XML文档经常有一个对应的数据库, 其中的字段会对应XML文档中的元素。有一个实用的经验,即使用数据库的名称规则来命名XML文档中的元素。非英语的字母比如éòá也是合法的XML 元素名,不过需要留意当软件开发商不支持这些字符时可能出现的问题。
6、XML元素是可扩展的
XML元素是可扩展,以携带更多的信息。请看下面这个XML例子:
- <note>
- <to>George</to>
- <from>John</from>
- <body>Don't forget the meeting!</body>
- </note>
- MESSAGE
- To: George
- From: John
- Don't forget the meeting!
- <note>
- <date>2008-08-08</date>
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
7、 尽量使用XML元素而不是属性
下面的三个XML文档包含完全相同的信息。
第一个例子中使用了date属性:
- <note date="08/08/2008">
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
- <note>
- <date>08/08/2008</date>
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
- <note>
- <date>
- <day>08</day>
- <month>08</month>
- <year>2008</year>
- </date>
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
因为使用属性而引起的一些问题:
* 属性无法包含多重的值(元素可以)
* 属性无法描述树结构(元素可以)
* 属性不易扩展(为未来的变化)
* 属性难以阅读和维护
请尽量使用元素来描述数据,而仅仅使用属性来提供与数据无关的信息。
不要做这样的蠢事(这不是XML应该被使用的方式):
- <note day="08" month="08" year="2008"
- to="George" from="John" heading="Reminder"
- body="Don't forget the meeting!">
- </note>
有时候会向元素分配ID引用。这些ID索引可用于标识XML元素,它起作用的方式与HTML中ID属性是一样的。这个例子向我们演示了这种情况:
- <messages>
- <note id="501">
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
- <note id="502">
- <to>John</to>
- <from>George</from>
- <heading>Re: Reminder</heading>
- <body>I will not</body>
- </note>
- </messages>
在此我们极力向您传递的理念是:元数据(有关数据的数据)应当存储为属性,而数据本身应当存储为元素。
9、XML验证
拥有正确语法的XML被称为“形式良好”的 XML。通过DTD(文档类型定义)验证的XML是“合法”的XML。下面是一个例子:- <?xml version="1.0" encoding="ISO-8859-1"?>
- <!DOCTYPE note SYSTEM "Note.dtd">
- <note>
- <to>George</to>
- <from>John</from>
- <heading>Reminder</heading>
- <body>Don't forget the meeting!</body>
- </note>
DTD的作用是定义XML文档的结构。它使用一系列合法的元素来定义文档结构:
- <!DOCTYPE note [
- <!ELEMENT note (to,from,heading,body)>
- <!ELEMENT to (#PCDATA)>
- <!ELEMENT from (#PCDATA)>
- <!ELEMENT heading (#PCDATA)>
- <!ELEMENT body (#PCDATA)>
- ]>
W3C支持一种 基于XML的DTD代替者,它名为XML Schema :
- <xs:element name="note">
- <xs:complexType>
- <xs:sequence>
- <xs:element name="to" type="xs:string"/>
- <xs:element name="from" type="xs:string"/>
- <xs:element name="heading" type="xs:string"/>
- <xs:element name="body" type="xs:string"/>
- </xs:sequence>
- </xs:complexType>
- </xs:element>
11、使用CSS显示XML
使用CSS来格式化XML文档是有可能的。下面是一个表示CD目录的XML文档,这个例子就是关于如何使用CSS样式表来格式化XML文档。
下面是此XML文件的一个片断。第二行<?xml-stylesheet type="text/css" href="cd_catalog.css"?>把这个XML文件链接到CSS文件:
- <?xml version="1.0" encoding="ISO-8859-1"?>
- <?xml-stylesheet type="text/css" href="cd_catalog.css"?>
- <CATALOG>
- <CD>
- <TITLE>Empire Burlesque</TITLE>
- <ARTIST>Bob Dylan</ARTIST>
- <COUNTRY>USA</COUNTRY>
- <COMPANY>Columbia</COMPANY>
- <PRICE>10.90</PRICE>
- <YEAR>1985</YEAR>
- </CD>
- <CD>
- <TITLE>Hide your heart</TITLE>
- <ARTIST>Bonnie Tyler</ARTIST>
- <COUNTRY>UK</COUNTRY>
- <COMPANY>CBS Records</COMPANY>
- <PRICE>9.90</PRICE>
- <YEAR>1988</YEAR>
- </CD>
- .
- .
- .
- .
- </CATALOG>
- CATALOG
- {
- background-color: #ffffff;
- width: 100%;
- }
- CD
- {
- display: block;
- margin-bottom: 30pt;
- margin-left: 0;
- }
- TITLE
- {
- color: #FF0000;
- font-size: 20pt;
- }
- ARTIST
- {
- color: #0000FF;
- font-size: 20pt;
- }
- COUNTRY,PRICE,YEAR,COMPANY
- {
- display: block;
- color: #000000;
- margin-left: 20pt;
- }
12、使用XSLT显示XML
XSLT是首选的XML样式表语言。XSLT(eXtensible Stylesheet Language Transformations)远比CSS更加完善。
使用XSLT的方法之一是在浏览器显示XML文件之前,先把它转换为HTML,下面是一个表示餐饮菜单的XML数据,它使用XSLT来显示。下面是此XML文件的一个片断。 第二行<?xml-stylesheet type="text/xsl" href="simple.xsl"?>把这个XML文件链接到XSL文件:
- <?xml version="1.0" encoding="ISO-8859-1"?>
- <?xml-stylesheet type="text/xsl" href="simple.xsl"?>
- <breakfast_menu>
- <food>
- <name>Belgian Waffles</name>
- <price>$5.95</price>
- <description>
- two of our famous Belgian Waffles
- </description>
- <calories>650</calories>
- </food>
- </breakfast_menu>
- <?xml version="1.0" encoding="ISO-8859-1"?>
- <!-- Edited with XML Spy v2007 (http://www.altova.com) -->
- <html xsl:version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns="http://www.w3.org/1999/xhtml">
- <body style="font-family:Arial,helvetica,sans-serif;font-size:12pt;
- background-color:#EEEEEE">
- <xsl:for-each select="breakfast_menu/food">
- <div style="background-color:teal;color:white;padding:4px">
- <span style="font-weight:bold;color:white">
- <xsl:value-of select="name"/></span>
- - <xsl:value-of select="price"/>
- </div>
- <div style="margin-left:20px;margin-bottom:1em;font-size:10pt">
- <xsl:value-of select="description"/>
- <span style="font-style:italic">
- (<xsl:value-of select="calories"/> calories per serving)
- </span>
- </div>
- </xsl:for-each>
- </body>
- </html>
13、XML命名空间(XML Namespaces)
XML命名空间提供避免元素命名冲突的方法。
在XML中,元素名称是由开发者定义的,当两个不同的文档使用相同的元素名时,就会发生命名冲突。
这个XML文档携带着某个表格中的信息:
- <table>
- <tr>
- <td>Apples</td>
- <td>Bananas</td>
- </tr>
- </table>
- <table>
- <name>African Coffee Table</name>
- <width>80</width>
- <length>120</length>
- </table>
我们可以使用前缀来避免命名冲突。此文档带有某个表格中的信息:
- <h:table>
- <h:tr>
- <h:td>Apples</h:td>
- <h:td>Bananas</h:td>
- </h:tr>
- </h:table>
- <f:table>
- <f:name>African Coffee Table</f:name>
- <f:width>80</f:width>
- <f:length>120</f:length>
- </f:table>
下面使用命名空间(Namespaces)来定义XML文档。这个XML文档携带着某个表格中的信息:
- <h:table xmlns:h="http://www.w3.org/TR/html4/">
- <h:tr>
- <h:td>Apples</h:td>
- <h:td>Bananas</h:td>
- </h:tr>
- </h:table>
- <f:table xmlns:f="http://www.w3school.com.cn/furniture">
- <f:name>African Coffee Table</f:name>
- <f:width>80</f:width>
- <f:length>120</f:length>
- </f:table>
XML命名空间属性被放置于元素的开始标签之中,并使用以下的语法:
xmlns:namespace-prefix="namespaceURI"
当命名空间被定义在元素的开始标签中时,所有带有相同前缀的子元素都会与同一个命名空间相关联。
注意用于标示命名空间的地址不会被解析器用于查找信息。其惟一的作用是赋予命名空间一个惟一的名称。不过,很多公司常常会作为指针来使用命名空间指向实际存在的网页,这个网页包含关于命名空间的信息。
为元素定义默认的命名空间可以让我们省去在所有的子元素中使用前缀的工作。请使用下面的语法:
xmlns="namespaceURI"
这个XML文档携带着某个表格中的信息:
- <table xmlns="http://www.w3.org/TR/html4/">
- <tr>
- <td>Apples</td>
- <td>Bananas</td>
- </tr>
- </table>
- <table xmlns="http://www.w3school.com.cn/furniture">
- <name>African Coffee Table</name>
- <width>80</width>
- <length>120</length>
- </table>
如果您仔细观察下面的这个XSL文档,就会看到大多数的标签是HTML标签。非HTML的标签都有前缀xsl,并由此命名空间标示"http://www.w3.org/1999/XSL/Transform":
- <?xml version="1.0" encoding="ISO-8859-1"?>
- <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
- <xsl:template match="/">
- <html>
- <body>
- <h2>My CD Collection</h2>
- <table border="1">
- <tr>
- <th align="left">Title</th>
- <th align="left">Artist</th>
- </tr>
- <xsl:for-each select="catalog/cd">
- <tr>
- <td><xsl:value-of select="title"/></td>
- <td><xsl:value-of select="artist"/></td>
- </tr>
- </xsl:for-each>
- </table>
- </body>
- </html>
- </xsl:template>
- </xsl:stylesheet>
所有XML文档中的文本均会被解析器解析。只有CDATA区段(CDATA section)中的文本会被解析器忽略。
(1)PCDATA
PCDATA指的是被解析的字符数据(Parsed Character Data)。
XML解析器通常会解析XML文档中所有的文本。当某个XML元素被解析时,其标签之间的文本也会被解析:
<message>此文本也会被解析</message>
解析器之所以这么做是因为XML元素可包含其他元素,就像这个例子中,其中的<name>元素包含着另外的两个元素(first和last):
<name><first>Bill</first><last>Gates</last></name>
而解析器会把它分解为像这样的子元素:
- <name>
- <first>Bill</first>
- <last>Gates</last>
- </name>
术语CDATA指的是不应由XML解析器进行解析的文本数据(Unparsed Character Data)。
在XML元素中,"<"和"&"是非法的。"<"会产生错误,因为解析器会把该字符解释为新元素的开始。"&"也会产生错误,因为解析器会把该字符解释为字符实体的开始。某些文本,比如JavaScript代码,包含大量"<"或"&"字符。为了避免错误,可以将脚本代码定义为CDATA。CDATA部分中的所有内容都会被解析器忽略。
CDATA 部分由"<![CDATA["开始,由"]]>"结束:
- <script>
- <![CDATA[
- function matchwo(a,b)
- {
- if (a < b && a < 0) then
- {
- return 1;
- }
- else
- {
- return 0;
- }
- }
- ]]>
- </script>
注意CDATA部分不能包含字符串"]]>"。也不允许嵌套的CDATA部分。标记CDATA部分结尾的"]]>"不能包含空格或折行。
15、XML现实案例
(1)XML新闻
XMLNews是用于交换新闻和其他信息的规范。对新闻的供求双方来说,通过使用这种标准,可以使各种类型的新闻信息通过不同软硬件以及编程语言进行的制作、接收和存档更加容易。
一个XMLNews文档实例:
- <?xml version="1.0" encoding="ISO-8859-1"?>
- <nitf>
- <head>
- <title>Colombia Earthquake</title>
- </head>
- <body>
- <headline>
- <hl1>143 Dead in Colombia Earthquake</hl1>
- </headline>
- <byline>
- <bytag>By Jared Kotler, Associated Press Writer</bytag>
- </byline>
- <dateline>
- <location>Bogota, Colombia</location>
- <date>Monday January 25 1999 7:28 ET</date>
- </dateline>
- </body>
- </nitf>
国家气象服务案例,来自NOAA(National Oceanic and Atmospheric Administration):
- <?xml version="1.0" encoding="ISO-8859-1" ?>
- <current_observation>
- <credit>NOAA's National Weather Service</credit>
- <credit_URL>http://weather.gov/</credit_URL>
- <image>
- <url>http://weather.gov/images/xml_logo.gif</url>
- <title>NOAA's National Weather Service</title>
- <link>http://weather.gov</link>
- </image>
- <location>New York/John F. Kennedy Intl Airport, NY</location>
- <station_id>KJFK</station_id>
- <latitude>40.66</latitude>
- <longitude>-73.78</longitude>
- <observation_time_rfc822>
- Mon, 11 Feb 2008 06:51:00 -0500 EST
- </observation_time_rfc822>
- <weather>A Few Clouds</weather>
- <temp_f>11</temp_f>
- <temp_c>-12</temp_c>
- <relative_humidity>36</relative_humidity>
- <wind_dir>West</wind_dir>
- <wind_degrees>280</wind_degrees>
- <wind_mph>18.4</wind_mph>
- <wind_gust_mph>29</wind_gust_mph>
- <pressure_mb>1023.6</pressure_mb>
- <pressure_in>30.23</pressure_in>
- <dewpoint_f>-11</dewpoint_f>
- <dewpoint_c>-24</dewpoint_c>
- <windchill_f>-7</windchill_f>
- <windchill_c>-22</windchill_c>
- <visibility_mi>10.00</visibility_mi>
- <icon_url_base>
- http://weather.gov/weather/images/fcicons/
- </icon_url_base>
- <icon_url_name>nfew.jpg</icon_url_name>
- <two_day_history_url>
- http://www.weather.gov/data/obhistory/KJFK.html
- </two_day_history_url>
- <disclaimer_url>
- http://weather.gov/disclaimer.html
- </disclaimer_url>
- <copyright_url>
- http://weather.gov/disclaimer.html
- </copyright_url>
- </current_observation>
XML是一门庞大的技术,涉及大量不同的标准,而且还在不断增长。可参考IBM developerWorks上的XML技术专题,特别是XML标准概览系列( http://www.ibm.com/developerworks/cn/xml/x-stand4/index.html )。该系列把XML标准分成核心XML标准、XML处理标准、XML应用标准三大类。
(1)核心XML标准: XML 1.0/1.1, XML Catalogs, URI, XML Namespaces, Unicode, XML Base, XInclude, XML Infoset, Canonical XML("c14n"), XPath, XPointer, XLink, RRLAX NG, W3C XML Schema(WXS),
Schematron。
(2)XML处理标准: XSLT, Stylesheet Associations, SAX, DOM, XAPI, XUpdate, XQuery, SQL/XML, CSS, XForms, SOAP, XML-RPC, WSDL。
(3)XML应用标准: XHTML, Docbook, TEI, XSL-FO, SVG, VoiceXML, MathXML, SMIL, RDF, XML Topic Maps(XTM)。