我认为最好用的网页解析模块Parsel

最新推荐文章于 2024-03-11 21:44:53 发布

1yshu

最新推荐文章于 2024-03-11 21:44:53 发布

阅读量2.6k

点赞数 9

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_46913162/article/details/113803796

版权

爬虫专栏收录该内容

21 篇文章 3 订阅

订阅专栏

前言：

众所周知，网页解析4大模块：1.正则表达式(re),2.bs4(BeautifulSoup),3.xpath(lxml)4.css选择器(pyquery),大家一定都很熟悉，很多都是从这几个模块入手，本文不对这4个模块评价它们的优略，因为每个人解析网页的习惯不同，所以对这些模块的理解和熟悉程度也不尽相同。

本文要说的，是一个很强大的解析模块parsel，它的强大之处在于是把上面其中的3大模块集成于一身，一个模块可以干3个模块的事情，你们说它强大吗。所以我就想分享出来，一起和大家交流和学习，parsel这个模块最开始是集成在scrapy框架下的，起初就是用在scrapy下提取数据的，后来scrapy团队把它单独独立出来，成为了一个独立的模块。

1.安装：

模块官网：https://pypi.org/project/parsel/

pip install parsel

2.使用：

# 导入需要的模块
import requests
import parsel

# 需要解析的网页
url = 'http://xxxxxx.com'
# 对该网页发送请求，获取响应
response = requests.get(url)
html_text = response.text
# 使用parsel解析网页
html = parsel.Selector(html_text)
# 使用正则
html.re('正则表达式语法')
# 使用xpath,提取元素的文本数据
html.xpath('xpath的语法/text()').extract()
# 使用css选择器，提取元素的属性里面的数据
html.css('css选择器的语法::attr('元素的属性名字')').extract()
# 还可以结合一起使用
html.xpath('xpath的语法/text').re('正则表达式语法')
# extract():是提取所有匹配出的元素，返回的是一个列表数据 extract_first():是提取单个匹配到的元素，返回的是字符串数据

从上面的代码，我们可以看出，无论是使用xpath，还是css选择器，正则表达式，都需要先创建一个parsel.Selector对象，然后就可以对这个对象进行解析，只不过注意使用这个模块需要对正则，xpath，css选择器的使用有所了解，这里我就不对它们的使用做过多的介绍，感兴趣的可以搜索自行学习，网上这方面的资料很多。

1yshu

关注

9
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
我认为最好用的网页解析模块Parsel

前言：众所周知，网页解析4大模块：1.正则表达式(re),2.bs4(BeautifulSoup),3.xpath(lxml)4.css选择器(pyquery),大家一定都很熟悉，很多都是从这几个模块入手，本文不对这4个模块评价它们的优略，因为每个人解析网页的习惯不同，所以对这些模块的理解和熟悉程度也不尽相同。本文要说的，是一个很强大的解析模块parsel，它的强大之处在于是把上面其中的3大模块集成于一身，一个模块可以干3个模块的事情，你们说它强大吗。所以我就想分享出来，一起和大家交流和学习，parse
复制链接

扫一扫