自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 正则表达式学习笔记(2)

四、re.search()全局遍历字符串的内容,匹配相关值,找到之后返回,后续还有相关匹配内容,不返回o-9,a-z,A-Z都是合法的检索内容,分别表示0到9的任意数字,a到z的任意字母,A到Z的任意字母例:| 的不同用法 print(re.match('[http|https|ftp|file]',"http://www.baidu.com").group()) # 在中括号内的|表示|单个字符 print(re.match('(http|https|ftp|file)',"http:

2021-08-25 19:35:25 388

原创 正则表达式学习笔记(1)

正则表达式学习笔记一、正则表达式概述正则表达式(regular expression)描述的是一种字符串匹配的模式,也就是说用具备一定特征意义的表达式对字符串进行检查,将符合条件的字符串提取出来的一种表达方式。我们使用的xpath,beautifulsoup等模块提取数据都是通过对html文件进行遍历从而获得想要的数据,在这之前我们需要将requests请求获取到的html字符串转化为html文件(lxml模块的etree;bs4模块的BeautifulSoup),但是使用re正则表达式则可以直接遍

2021-08-25 10:11:58 371

原创 python爬虫之xpath实战:爬取微博热搜

# -*- coding = utf-8 -*-# @Time : 2021/8/23 19:01# @Author : xiao long# @File :weibo.pyimport requestsfrom lxml import etreeurl = 'https://s.weibo.com/top/summary?cate=realtimehot'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64.

2021-08-24 15:49:52 2371

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除