正则表达式
晓东邪
扎实基础,记录学习点滴。
展开
-
正则表达式中跨行匹配问题
在学习Python写爬虫时用到正则表达式是必然的,因此有效掌握正则表达式这门神器会使我们爬虫工作如鱼得水,不过在成长为大神之前还是有很多弯路要走,希望自己一路打怪升级早日成为大神。 闲话少叙,今天写爬虫的时候发现要匹配一个跨很多很多行的内容,之前是(.+?)在手,爬虫我有,不过这次这个神匹配也不好使了,查了点资料,发现是(.)不能匹配跨行内容,ok,上利器,[\s\S]* or [\w\W]*原创 2016-06-15 05:29:31 · 11935 阅读 · 1 评论 -
利用正则表达式识别邮箱
正则表达式在实际中的一个经典应用是识别邮箱地址。 虽然不同邮箱服务器地址的具体规则不尽相同,但是我们还是可以创建几条通用规则。如下:[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)其中A-Z表示任意A~Z的大写字母,0-9表示任意0~9的数字, 把所有可能的序列和符号放在中括号里表示“括号中的任意一个”原创 2016-10-23 13:47:21 · 855 阅读 · 0 评论 -
常用正则表达式
所谓的正则表达式,就是一种描述字符串结构模式的形式化表达方式。 正则表达式它简单,优美,功能强大,妙用无穷。正则表达式最大的好处就是能处理”符合某种抽象模式的”字符串,而不是固定的具体的字符串。一旦熟练掌握,可以节省大量的开发时间和大大的提升效率.用python处理数据时经常用到正则表达式,虽然有时候可以用一些比较人性化的库来代替,但是理解其内涵可以帮助我们更好的使用库,一些简单的表达式和实用字符原创 2017-01-24 18:09:35 · 2017 阅读 · 0 评论 -
使用python去除HTML中标签的几种方式
这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址待删除HTML示例标签如下:In [96]: testOut[96]: '<p>just for test</p><br/><font>just for test</font><b>test</b>'方法原创 2018-03-08 17:53:48 · 24882 阅读 · 1 评论