昨天的解析网页(http://blog.csdn.net/xiadasong007/archive/2009/09/05/4521844.aspx)实在是件很郁闷的事,在我看来,如果想真正完全解析任意的网页,前提必须是能非常熟练的解析字符串。因此,继上篇,我不是继续探究Python库中其他网络编程,而是来揭开正则表达式的神秘面纱,请这位高手帮忙处理各种文件。
正则表达式基本知识:
1:请注意如下符号(这些符号被称为“元字符”):. ^ $ * + ? { [ ] / | ( )】
. 匹配除了换行字符以外的任意字符
^ 取反的作用,如^5表示除5之外的字符
[ ] 要匹配的字符集,如[abc]就是要匹配'a','b','c'中的任意一个;而[a-z]是匹配'a'-'z'的字符
/ 后面加不同的字符表示不同的意思
$ 匹配行尾
* 指定前一个字符可以被匹配零次或更多次,如ab*c表示匹配ac,abc,abbc,...
+ 表示匹配一或更多次,如ab+c表示匹配abc,abbc,abbbc,...
? 匹配一次或零次,如ab?c表示匹配ac,abc
{m,n} 重复在m到n间,如ab{1,3}c表示匹配abc,abbc,abbbc
|
( )