最近在csdn论坛看到这样一个问题:
高分求一正则表达式
内容可能是纯净的文本 或者 含有html标签
如:fsdfsfs <font color="sla tegra y">撒旦飞洒a 撒范德萨...a </font>fsfdsfsdfds要实现:将html标签外的a 替换成 b 而标签体内的a 不受影响即上段内容中 <font>标签中 color属性值中的字符a不能被替换
希望能给出正则表达式以及替换方法
(原贴:http://topic.csdn.net/u/20100302/15/d15498be-97bb-448b-9f5b-b3ba7a6e111d.html )
结果就一大堆人在苦思冥想各种正则的解法。
正则表达式在匹配复杂substring的时候确实有其作用。但是这种对substring以外有特别要求的情况却不应合适。
就算在某个“正则实现”中可以办到(据说.net中这种就可以办到),但是由于每个实现环境之间都有可能不同grep vi 或者js 或者java都会有所区别。
而就解决该问题而言使用简易“词法扫描”更合适。而且其要求是针对mark类语法进行判别,这里甚至不用“回溯”的词法扫瞄。
个人提供如下方式,其实就是“编译原理中”最最基本的东西了: