![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
weiyang_tang
这个作者很懒,什么都没留下…
展开
-
常用的正则表达式匹配规则
常用的正则表达式匹配规则模式描述\w匹配字母、数字、下划线,等价于[a-zA-Z0-9_] \w可以匹配汉字(python),\W匹配不是字母、数字、下划线的其他字符\s匹配任意空白字符,等价于(\t\n\r\f)\S匹配任意非空字符\d匹配数字,等价于[0-9]\D匹配不是数字的字符\A匹配字符串开头\Z匹配字符串结...原创 2018-09-21 21:31:22 · 12935 阅读 · 1 评论 -
python3网络爬虫开发实战学习笔记(一)--------python正则表达式re模块
match()re.match(pattern, string, flags=0)作用:re.match 尝试从字符串的起始位置匹配一个模式(pattern),如果不是起始位置匹配成功的话,match()就返回None参数:pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符,见下表返回值的类型匹配成功re.match方法返回一...原创 2018-09-22 10:18:02 · 5158 阅读 · 0 评论 -
python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬 猫眼电影排名
我最近在看崔庆才老师的《python3 网络爬虫开发实战》觉得挺不错的,上面还有一个 用正则表达式爬取猫眼电影的电影排行榜 我练了一下,感觉不会很难,后来学到了xpath,就想用xpath去爬取,结果发现比正则表达式简单多了下面讲一下基本原理,先用 respone =requests.get(url,headers=headers) 获取html文件这里要注意的是,猫眼电影加了反爬虫(可...原创 2018-09-24 13:54:16 · 7006 阅读 · 0 评论 -
pyhon3 爬取河海大学URP教务系统,爬取个人成绩,和本学期的成绩GPA,保存到excel
pyhon3 爬取Hohai大学的教务系统,爬取个人成绩,和本学期的成绩GPA,保存到excel1.利用百度的ocr,对教务系统的验证码进行识别;2. 利用urllib库进行模拟登陆和爬取3. 利用 beautifulSoup对网页进行解析,获取所需数据4. 利用 xlwt,xlrd,xlutils进行excel的新建和读取和修改一、爬虫环境搭建cmd命令pip安装下列模块pi...原创 2019-02-18 16:39:45 · 2559 阅读 · 0 评论