- 博客(3)
- 收藏
- 关注
原创 正则表达式学习笔记(2)
四、re.search()全局遍历字符串的内容,匹配相关值,找到之后返回,后续还有相关匹配内容,不返回o-9,a-z,A-Z都是合法的检索内容,分别表示0到9的任意数字,a到z的任意字母,A到Z的任意字母例:| 的不同用法 print(re.match('[http|https|ftp|file]',"http://www.baidu.com").group()) # 在中括号内的|表示|单个字符 print(re.match('(http|https|ftp|file)',"http:
2021-08-25 19:35:25 388
原创 正则表达式学习笔记(1)
正则表达式学习笔记一、正则表达式概述正则表达式(regular expression)描述的是一种字符串匹配的模式,也就是说用具备一定特征意义的表达式对字符串进行检查,将符合条件的字符串提取出来的一种表达方式。我们使用的xpath,beautifulsoup等模块提取数据都是通过对html文件进行遍历从而获得想要的数据,在这之前我们需要将requests请求获取到的html字符串转化为html文件(lxml模块的etree;bs4模块的BeautifulSoup),但是使用re正则表达式则可以直接遍
2021-08-25 10:11:58 371
原创 python爬虫之xpath实战:爬取微博热搜
# -*- coding = utf-8 -*-# @Time : 2021/8/23 19:01# @Author : xiao long# @File :weibo.pyimport requestsfrom lxml import etreeurl = 'https://s.weibo.com/top/summary?cate=realtimehot'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64.
2021-08-24 15:49:52 2371
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人