libexpat不能处理XML中非正常字符的问题

LIBEXPAT:

libexpat: https://libexpat.github.io, 是一个处理XML非常快速的开源库,用c语言写,应用很广泛。


问题:

dmanywhere中,就使用了这个组件来解析powerdesigner生成的pdm和ldm, 在线测试阶段,发现一些朋友上传的pdm和ldm无法正常解析,不能当做正常xml处理。


经过分析,发现,正常情况下,xml里面是由正常字符和 回车,tab等组成。但有不正常的情况,有些文件里面存在 不可见的字符,如ascii码为19的,为31的这些 字符。

这时候,默认情况下,libexpat当做非法文件处理,导致服务解析。


解决:

暂时采用一个简单的浅度解决方案,方法如下:

修改文件:

libexpat/lib/asciitab.h

libexpat/lib/iasciitab.h


打开文件后,就会发现,这里面定义各个ascii字符的处理方式,默认情况下为:

/* 0x00 */ BT_NONXML, BT_NONXML, BT_NONXML, BT_NONXML,

/* 0x04 */ BT_NONXML, BT_NONXML, BT_NONXML, BT_NONXML,

/* 0x08 */ BT_NONXML, BT_S, BT_LF, BT_NONXML,

/* 0x0C */ BT_NONXML, BT_S, BT_NONXML, BT_NONXML,

/* 0x10 */ BT_NONXML, BT_NONXML, BT_NONXML, BT_NONXML,

/* 0x14 */ BT_NONXML, BT_NONXML, BT_NONXML, BT_NONXML,

/* 0x18 */ BT_NONXML, BT_NONXML, BT_NONXML, BT_NONXML,

/* 0x1C */ BT_NONXML, BT_NONXML, BT_NONXML, BT_NONXML,

这里面,这些字符都当坐BT_NONXML,

修改他们为:

/* 0x00 */ BT_NONXML, BT_S, BT_S, BT_S,

/* 0x04 */ BT_S, BT_S, BT_S, BT_S,

/* 0x08 */ BT_S, BT_S, BT_LF, BT_S,

/* 0x0C */ BT_S, BT_S, BT_S, BT_S,

/* 0x10 */ BT_S, BT_S, BT_S, BT_S,

/* 0x14 */ BT_S, BT_S, BT_S, BT_S,

/* 0x18 */ BT_S, BT_S, BT_S, BT_S,

/* 0x1C */ BT_S, BT_S, BT_S, BT_S,

除了0之外,都当做空格处理。


另外一种做法是,新增一种BYTE_TYPE,如BYTE_NULL, 对这种字符进行忽略。


重新编译后,下次遇到非法字符就能当做空格处理了。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值