XML规范 - 中文版(7)

2019-04-22 08:30

黵 Informatik, Bericht 38, Oktober 1991.

Clark

James Clark. Comparison of SGML and XML. See http://www.w3.org/TR/NOTE-sgml-xml-971215. IETF RFC1738

IETF (Internet Engineering Task Force). RFC 1738:Uniform Resource Locators (URL), ed. T. Berners-Lee, L. Masinter, M. McCahill. 1994.

IETF RFC1808

IETF (Internet Engineering Task Force). RFC 1808:Relative Uniform Resource Locators, ed. R. Fielding. 1995. IETF RFC2141

IETF (Internet Engineering Task Force). RFC 2141:URN Syntax, ed. R. Moats. 1997. ISO 8879

ISO (International Organization for Standardization). ISO 8879:1986(E). Information processing -- Text and Office Systems -- Standard Generalized Markup Language (SGML). First edition -- 1986-10-15. [Geneva]:International Organization for Standardization, 1986.

ISO/IEC 10744

ISO (International Organization for Standardization). ISO/IEC 10744-1992 (E). Information technology -- Hypermedia/Time-based Structuring Language (HyTime). [Geneva]:International Organization for Standardization, 1992. Extended Facilities Annexe. [Geneva]:International Organization for Standardization, 1996.

B. 字符的分类(Character Classes)

根据Unicode标准中定义的特征,字符被分为基字符(其中包括没有变音符的拉丁字母),表意字符和组合字符(其中包括大多数的变音符);这些类合起来组成了字母类。数字和扩展符(extender)也各自被分成类。

字符

[84] Letter ::= BaseChar | Ideographic

[85] BaseChar ::= [#x0041-#x005A] | [#x0061-#x007A] | [#x00C0-#x00D6] | [#x00D8-#x00F6] | [#x00F8-#x00FF] | [#x0100-#x0131] | [#x0134-#x013E] | [#x0141-#x0148] | [#x014A-#x017E] | [#x0180-#x01C3] | [#x01CD-#x01F0] | [#x01F4-#x01F5] | [#x01FA-#x0217] | [#x0250-#x02A8] | [#x02BB-#x02C1] | #x0386 | [#x0388-#x038A] | #x038C | [#x038E-#x03A1] | [#x03A3-#x03CE] | [#x03D0-#x03D6] | #x03DA | #x03DC | #x03DE | #x03E0 | [#x03E2-#x03F3] | [#x0401-#x040C] | [#x040E-#x044F] | [#x0451-#x045C] | [#x045E-#x0481] | [#x0490-#x04C4] | [#x04C7-#x04C8] | [#x04CB-#x04CC] | [#x04D0-#x04EB] | [#x04EE-#x04F5] | [#x04F8-#x04F9] | [#x0531-#x0556] | #x0559 | [#x0561-#x0586] | [#x05D0-#x05EA] | [#x05F0-#x05F2] | [#x0621-#x063A] | [#x0641-#x064A] | [#x0671-#x06B7] | [#x06BA-#x06BE] | [#x06C0-#x06CE] | [#x06D0-#x06D3] | #x06D5 | [#x06E5-#x06E6] | [#x0905-#x0939] | #x093D | [#x0958-#x0961] | [#x0985-#x098C] | [#x098F-#x0990] | [#x0993-#x09A8] | [#x09AA-#x09B0] | #x09B2 | [#x09B6-#x09B9] | [#x09DC-#x09DD] | [#x09DF-#x09E1] | [#x09F0-#x09F1] | [#x0A05-#x0A0A] | [#x0A0F-#x0A10] | [#x0A13-#x0A28] | [#x0A2A-#x0A30] | [#x0A32-#x0A33] | [#x0A35-#x0A36] | [#x0A38-#x0A39] | [#x0A59-#x0A5C] | #x0A5E | [#x0A72-#x0A74] | [#x0A85-#x0A8B] | #x0A8D | [#x0A8F-#x0A91] | [#x0A93-#x0AA8] | [#x0AAA-#x0AB0] | [#x0AB2-#x0AB3] | [#x0AB5-#x0AB9] | #x0ABD | #x0AE0 | [#x0B05-#x0B0C] | [#x0B0F-#x0B10] | [#x0B13-#x0B28] | [#x0B2A-#x0B30] | [#x0B32-#x0B33] | [#x0B36-#x0B39] | #x0B3D | [#x0B5C-#x0B5D] | [#x0B5F-#x0B61] | [#x0B85-#x0B8A] | [#x0B8E-#x0B90] | [#x0B92-#x0B95] | [#x0B99-#x0B9A] | #x0B9C | [#x0B9E-#x0B9F] | [#x0BA3-#x0BA4] | [#x0BA8-#x0BAA] | [#x0BAE-#x0BB5] | [#x0BB7-#x0BB9] | [#x0C05-#x0C0C] | [#x0C0E-#x0C10] |

[#x0C12-#x0C28] | [#x0C2A-#x0C33] | [#x0C35-#x0C39] | [#x0C60-#x0C61] | [#x0C85-#x0C8C] | [#x0C8E-#x0C90] | [#x0C92-#x0CA8] | [#x0CAA-#x0CB3] | [#x0CB5-#x0CB9] | #x0CDE | [#x0CE0-#x0CE1] | [#x0D05-#x0D0C] | [#x0D0E-#x0D10] | [#x0D12-#x0D28] | [#x0D2A-#x0D39] | [#x0D60-#x0D61] | [#x0E01-#x0E2E] | #x0E30 | [#x0E32-#x0E33] | [#x0E40-#x0E45] | [#x0E81-#x0E82] | #x0E84 | [#x0E87-#x0E88] | #x0E8A | #x0E8D | [#x0E94-#x0E97] | [#x0E99-#x0E9F] | [#x0EA1-#x0EA3] | #x0EA5 | #x0EA7 | [#x0EAA-#x0EAB] | [#x0EAD-#x0EAE] | #x0EB0 | [#x0EB2-#x0EB3] | #x0EBD | [#x0EC0-#x0EC4] | [#x0F40-#x0F47] | [#x0F49-#x0F69] | [#x10A0-#x10C5] | [#x10D0-#x10F6] | #x1100 | [#x1102-#x1103] | [#x1105-#x1107] | #x1109 | [#x110B-#x110C] | [#x110E-#x1112] | #x113C | #x113E | #x1140 | #x114C | #x114E | #x1150 | [#x1154-#x1155] | #x1159 | [#x115F-#x1161] | #x1163 | #x1165 | #x1167 | #x1169 | [#x116D-#x116E] | [#x1172-#x1173] | #x1175 | #x119E | #x11A8 | #x11AB | [#x11AE-#x11AF] | [#x11B7-#x11B8] | #x11BA | [#x11BC-#x11C2] | #x11EB | #x11F0 | #x11F9 | [#x1E00-#x1E9B] | [#x1EA0-#x1EF9] | [#x1F00-#x1F15] | [#x1F18-#x1F1D] | [#x1F20-#x1F45] | [#x1F48-#x1F4D] | [#x1F50-#x1F57] | #x1F59 | #x1F5B | #x1F5D | [#x1F5F-#x1F7D] | [#x1F80-#x1FB4] | [#x1FB6-#x1FBC] | #x1FBE | [#x1FC2-#x1FC4] | [#x1FC6-#x1FCC] | [#x1FD0-#x1FD3] | [#x1FD6-#x1FDB] | [#x1FE0-#x1FEC] | [#x1FF2-#x1FF4] | [#x1FF6-#x1FFC] | #x2126 | [#x212A-#x212B] | #x212E | [#x2180-#x2182] | [#x3041-#x3094] | [#x30A1-#x30FA] | [#x3105-#x312C] | [#xAC00-#xD7A3]

[86] Ideographic ::= [#x4E00-#x9FA5] | #x3007 | [#x3021-#x3029]

[87] CombiningChar ::= [#x0300-#x0345] | [#x0360-#x0361] | [#x0483-#x0486] | [#x0591-#x05A1] | [#x05A3-#x05B9] | [#x05BB-#x05BD] | #x05BF | [#x05C1-#x05C2] | #x05C4 | [#x064B-#x0652] | #x0670 | [#x06D6-#x06DC] | [#x06DD-#x06DF] | [#x06E0-#x06E4] | [#x06E7-#x06E8] | [#x06EA-#x06ED] | [#x0901-#x0903] | #x093C | [#x093E-#x094C] | #x094D | [#x0951-#x0954] | [#x0962-#x0963] | [#x0981-#x0983] | #x09BC | #x09BE | #x09BF | [#x09C0-#x09C4] | [#x09C7-#x09C8] | [#x09CB-#x09CD] | #x09D7 | [#x09E2-#x09E3] | #x0A02 | #x0A3C | #x0A3E | #x0A3F | [#x0A40-#x0A42] | [#x0A47-#x0A48] | [#x0A4B-#x0A4D] | [#x0A70-#x0A71] | [#x0A81-#x0A83] | #x0ABC | [#x0ABE-#x0AC5] | [#x0AC7-#x0AC9] | [#x0ACB-#x0ACD] | [#x0B01-#x0B03] | #x0B3C | [#x0B3E-#x0B43] | [#x0B47-#x0B48] | [#x0B4B-#x0B4D] | [#x0B56-#x0B57] | [#x0B82-#x0B83] | [#x0BBE-#x0BC2] | [#x0BC6-#x0BC8] | [#x0BCA-#x0BCD] | #x0BD7 | [#x0C01-#x0C03] | [#x0C3E-#x0C44] | [#x0C46-#x0C48] | [#x0C4A-#x0C4D] | [#x0C55-#x0C56] | [#x0C82-#x0C83] | [#x0CBE-#x0CC4] | [#x0CC6-#x0CC8] | [#x0CCA-#x0CCD] | [#x0CD5-#x0CD6] | [#x0D02-#x0D03] | [#x0D3E-#x0D43] | [#x0D46-#x0D48] | [#x0D4A-#x0D4D] | #x0D57 | #x0E31 | [#x0E34-#x0E3A] | [#x0E47-#x0E4E] | #x0EB1 | [#x0EB4-#x0EB9] | [#x0EBB-#x0EBC] | [#x0EC8-#x0ECD] | [#x0F18-#x0F19] | #x0F35 | #x0F37 | #x0F39 | #x0F3E | #x0F3F | [#x0F71-#x0F84] | [#x0F86-#x0F8B] | [#x0F90-#x0F95] | #x0F97 | [#x0F99-#x0FAD] | [#x0FB1-#x0FB7] | #x0FB9 | [#x20D0-#x20DC] | #x20E1 | [#x302A-#x302F] | #x3099 | #x309A

[88] Digit ::= [#x0030-#x0039] | [#x0660-#x0669] | [#x06F0-#x06F9] | [#x0966-#x096F] | [#x09E6-#x09EF] | [#x0A66-#x0A6F] | [#x0AE6-#x0AEF] | [#x0B66-#x0B6F] | [#x0BE7-#x0BEF] | [#x0C66-#x0C6F] | [#x0CE6-#x0CEF] | [#x0D66-#x0D6F] | [#x0E50-#x0E59] | [#x0ED0-#x0ED9] | [#x0F20-#x0F29]

[89] Extender ::= #x00B7 | #x02D0 | #x02D1 | #x0387 | #x0640 | #x0E46 | #x0EC6 | #x3005 | [#x3031-#x3035] | [#x309D-#x309E] | [#x30FC-#x30FE]

在此定义的字符类可以从Unicode字符库中如下导出: 名字的起始字符必须属于Ll,Lu,Lo,Lt,Nl中的一类。

除了起始字符之外的命名字符必须属于Mc,Me,Mn,Lm或Nd中的一类。 兼容区(即代码大于#xF900,小于#xFFFE的字符)中的字符不允许在XML名字中出现。

不允许出现具有字集或兼容分解(即,库中第5区有\的字符 -- \标志着5区的开始)的字符。

下列字符被当成名字起始字符,因为特性文件中将它们归于字母类:[#x02BB-#x02C1],#x0559,#x06E5,#x06E6。

不允许出现字符#x20DD-#x20E0(与Unicode的5.14节保持一致)。 字符#x00B7被分为扩展符,因为特性文件中对它是这么标识的。 字符#x0387被当成一个命名字符,因为#x00B7是它的等价规范形式。 字符':'和'_'可以作为名字起始字符。 字符'-'和'.'可以作为命名字符。 C. XML和SGML(非正式)

XML被设计为SGML的一个子集,表现在每一个有效的XML文件应该也是一个合乎规范的SGML文件。对XML在SGML之外对文件所加的限制的详细讨论参见[Clark]。

D. 实体和字符引用的展开(非正式)

本附录中举例说明了在 \XML处理器对实体和引用的处理\一节中规定的实体和字符引用的识别和展开的次序。

如果声明包含在DTD中

\

那么XML处理器将在对实体声明进行语法分析时识别出字符引用,并在将下面的字符串存为实体\的值前解析这些字符引用:

An ampersand (&) may be escaped numerically (&) or with a general entity (&).

文件中对\的引用会导致对文本的重新分析,此时元素\的起始和结束标签被识别,三个引用被识别和展开,其结果是一个包含下面内容(所有数据,无定界符或标记)\元素:

An ampersand (&) may be escaped numerically (&) or with a general entity (&).

一个更复杂的例子可以完整地说明这些规则和它们的作用。在下面的例子中,行号仅仅是为了方便说明。 1 2

3 4

5

8 This sample shows a &tricky; method. 这个例子会导致下列动作:

在第4行,对字符37的引用会被立即展开,参数实体\以值\存于符号表中。因为置换文本不被再次扫描,对参数实体\的引用不会被识别。(而且如果它被识别的话则是一个错误,因为\还没有被声明。)

在第5行,字符引用\被立即展开,而参数实体\以置换文本\被存储,此置换文本是一个规范的实体声明。

在 第6行,对\的引用被识别,\的置换文本(即\被分析。对\的引用随后被识别,它的置换文本 (\被分析。此时普通实体\被声明,它的置换文本 是\。 在第8行,对普通实体\的引用被识别,并被展开,因此\元素的全部内容为一个自说明的(也不合语法)字符串This sample shows a error-prone method.。

E. 确定型内容模型(非正式)

出于兼容性考虑,要求元素类型声明中的内容模型是确定型的。

SGML要求内容模型是确定型的(它称为\无歧义的\用SGML系统生成的XML处理器可能会把非确定型内容模型标为错误。

例 如,内容模型((b, c) | (b, d))是非确定型的,因为给定一个初始b,分析器没有在向前看以知道b后是什么元素之前,无法知道匹配模型中的 哪个b。在这种情况下,两个对b的引用可以简化成单个的引用,使得模型成为(b,(c | d))。此时初始的b只和内容模型中的一个名字明确匹配。分析 器不需要向前看其后的内容。c或d都能被接受。

更形式化的说法:使用Aho,Sethi和Ullman所著 [Aho/Ullman]3.9节中的标准算法3.5,可以从内容模型构造出一个有限状态自动机。在很多这样的算法中,对应正则表达式中的每一个位置(即 正则表达式的语法树中的每个叶子节点),都构造一个随集(follow set);如果任一位置的随集中不止一个后继位置被标为同一元素类型时,那么此内 容模型出错,并且可以被报为错误。

存在将许多但不是所有非确定型内容模型自动规约为等价的确定型模型的算法;参见Br黦gemann-Klein 1991 [Br黦gemann-Klein].

F. 字符编码的自动检测(非正式)

XML 编码声明在实体中以内部标签的方式工作,用于指出使用了何种字符编码。然而,在XML处理器能读取这个内部标签前,显然它必须知道当前使用的是何种字符编 码-而这正是此内部标签要试图指出的。通常情况下,这是一种无法解决的情况。但在XML中并非如此,因为XML在两个方面对这种情形作出了限制:假定每一 种实现只支持一个有限的字符编码集,并且,为了使得正常情况下自动检测每个实体中所用字符编码成为可能,限制了XML编码声明的位置和内容。同时,很多情 况下除了XML数据流本身之外,另外还有可用的信息源。根据XML实体交给处理器时没有或有任何的附带(外部)信息,可以区分出两种情况。我们先考虑第一 种情况。

因为每一个非UTF-8或UTF-16格式的XML实体必须以XML编码声明开头,其开始的几个字符必须为 '

00 00 00 3C:UCS-4,big-endian编码的计算机(1234次序) 3C 00 00 00:UCS-4,little-endian编码的计算机(4321次序) 00 00 3C 00:UCS-4,异常的八位组次序(2143)

00 3C 00 00:UCS-4,异常的八位组次序(3412) FE FF:UTF-16,big-endian FF FE:UTF-16,little-endian

00 3C 00 3F:UTF-16,big-endian,无字节次序标记(因此严格说来出错) 3C 00 3F 00:UTF-16,little-endian,无字节次序标记(因此严格说来出错)

3C 3F 78 6D:UTF- 8,ISO 646,ASCII,ISO 8859的一些部分,Shift-JIS,EUC,及其他任何7位,8位或混合宽度的能保证ASCII字符有它 们正常的位置,宽度,取值的编码;具体其中哪一个适用需读取实际的编码声明来检测确定,但因为所有这些编码中ASCII字符的位模式相同,所以能够可靠地 读取编码声明本身。

4C 6F A7 94:EBCDIC(在某些变种中,完整的编码声明必须能用于确定使用了哪一代码页) 其他:无编码声明的UTF-8,或是数据流已损坏,不完整或被包含在某种外层数据中。

这种层次的自动检测足以用于读取XML编码声明和分析字符编码标识符。字符编码标识符仍然是必须的,它用于区分编码方案集中的单个成员(例如从8859中区分出UTF-8,8859各个部分间的相互区分,以及区分所用的特定EBCDIC代码页,等等)。

因 为编码声明的内容限于ASCII字符,一旦处理器检测到使用的是哪一个编码方案集,它能够可靠地读取整个编码声明。因为在实际中,所有广泛使用的字符编码 都可以归于上述种类中,XML编码声明保证了可靠的内嵌(in-band)字符编码标注,即使是在操作系统或传输协议级的外部信息源并不可靠的情况下。

一旦处理器检测到所用的字符编码,它就可以作出合适的动作,或是针对每种情况调用单独的输入例程,或是对每个输入的字符调用版本合适的转换函数。

和任何自标注(self-labeling)的系统一样,一旦任何软件改变了实体的字符集或其编码而没有相应修改编码声明的话,XML的编码声明将无法工作。字符编码方案的实现者必须小心仔细,以保证用于标注实体的内部和外部信息的正确性。

第二种可能的情况是XML实体有附带的信息,如在一些文件系统和网络协议中。当具有多个信息源时,它们间的相对优先级和首选冲突处理方法必须在传输XML的 高层协议中给出。例如,内部标签和外部文件头中的MIME类型标签的相对优先级应该是定义text/xml和application/xml MIME类 型的RFC文档的一部分。然而出于互操作性考虑,建议使用下列规则。

如果XML实体是在一个文件中,用字节次序标记和编码声明PI(如果有的话)来确定字符编码。所有其他信息源和推断都仅仅用于错误恢复。

如果XML实体传递时标为text/xml MIME类型,那么MIME类型的charset参数决定了字符编码方法;所有其他信息源和推断都仅仅用于错误恢复。

如果XML实体传递时标为application/xml MIME类型,那么用字节次序标记和编码声明PI(如果有的话)来确定字符编码。所有其他信息源和推断都仅仅用于错误恢复。

这些规则只适用于缺少协议级文档时的情况;特别是,当相关RFC中定义了这些text/xml和application/xml MIME类型时,RFC中的建议取代这些规则。

G. W3C XML工作组(非正式)

本规范由W3C XML工作组(WG)完成并批准发表。工作组批准本规范并一定表示所有的工作组的成员都一致同意本规范。现有和以前的XML工作组成员包括:

Jon Bosak, Sun (Chair); James Clark (Technical Lead); Tim Bray, Textuality and Netscape (XML Co-editor); Jean Paoli, Microsoft (XML Co-editor); C. M. Sperberg-McQueen, U. of Ill. (XML Co-editor); Dan Connolly, W3C (W3C Liaison);

Paula Angerstein, Texcel; Steve DeRose, INSO; Dave Hollander, HP; Eliot Kimber, ISOGEN; Eve Maler, ArborText; Tom Magliery, NCSA; Murray Maloney, Muzmo and Grif; Makoto Murata, Fuji Xerox Information Systems; Joel Nava, Adobe; Conleth O'Connell, Vignette; Peter Sharpe, SoftQuad; John Tigue, DataChannel


XML规范 - 中文版(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:威斯敏斯特小要理问答

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: