![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
正则表达式
tsing_9521
这个作者很懒,什么都没留下…
展开
-
正则表达式 贪婪匹配和惰性匹配 分组和去优先级
最近在学爬虫,用到正则的贪婪匹配和惰性匹配,findall方法分组优先匹配和去优先级,举几个例子感受一下:import re#不分组,无优先级print(re.findall('m.+?','ascxdcmmmmmdabnxamnx')) #惰性匹配,+匹配到一个即匹配成功输出:['mm', 'mm', 'md', 'mn']print(re.findall('m*?','ascxd...原创 2019-02-12 13:40:59 · 602 阅读 · 0 评论 -
python爬虫项目1:小说下载
最近在学爬虫,被动态网站,分布式什么的搞得头昏脑涨,所以先停下来巩固一下基础。先从小的完整的项目写起,代码小学生水平,接受批评…目标:爬取笔趣看这个网站的一本小说:工具:requests模块,re模块,正则表达式代码如下:import requestsimport re#目录urlurl='https://www.biqukan.com/1_1094/'#获取目录htmlre...原创 2019-02-19 11:34:40 · 314 阅读 · 0 评论 -
python爬虫项目2:爬取图片并保存
下载http://pic.yxdown.com/list/0_0_4.html网站图片并保存:用到的库:requests,beautifulsoupimport requestsimport refrom bs4 import BeautifulSoup#设置初始urlbaseurl='http://pic.yxdown.com/list/'urls=[]#拼接前20页的url...原创 2019-02-19 16:03:50 · 1273 阅读 · 0 评论 -
列表的主要方法/浅拷贝VS深拷贝
切片取值:li=[1,3,5,7,9]print(li[1:3])输出:[3, 5]索引取值:li=[1,3,5,7,9]print(li[3])输出:7判断存在,输出布尔值li=[1,3,5,7,9]print(11 in li)输出:False向列表添加单个:添加到末尾li=[]for i in range(10): if i &...原创 2019-02-26 19:04:25 · 161 阅读 · 0 评论 -
Python +正则表达式爬取豆瓣页面邮箱
python + 正则爬取豆瓣页面的邮箱:import requestsimport rehtml=requests.get('https://www.douban.com/group/topic/124565040/?start=0')pattern=re.compile(r'[a-zA-Z0-9-_\.]+@[a-zA-Z0-9-_]+\.[a-zA-Z0-9-_]+')res=r...原创 2019-03-18 10:41:58 · 514 阅读 · 0 评论