正则表达式在处理字符串的时候,效率很高。但是需要熟练掌握,否则容易造成失误。
未免遗忘,记录于此。
1, 小括号的妙用 ()
如下字符串
这些字符是从页面中提取,如果需要提取出<H1>和</H1>间的内容,可以写成
此处(.|/n)*是为了匹配所有字符和换行符。不能使用[.|/n]*,是因为.符号在[]就仅表示.的含义,没有匹配除换行符外所有字符的含义了,即已经被转义了,等同于/.。
2. 中括号的妙用[]
如下字符串
同样是 HTML页面的内容,需要提取<td>标签为maintext间的数据。
可以写成
这里同样考虑了由于数据中存在换行的可能。同时,使用[</td>]而不使用(</td>)是考虑到存在的转义问题,我这里需要的是等同的字符,所以使用了[]。