我认为最好用的网页解析模块Parsel

前言:

众所周知,网页解析4大模块:1.正则表达式(re),2.bs4(BeautifulSoup),3.xpath(lxml)4.css选择器(pyquery),大家一定都很熟悉,很多都是从这几个模块入手,本文不对这4个模块评价它们的优略,因为每个人解析网页的习惯不同,所以对这些模块的理解和熟悉程度也不尽相同。

本文要说的,是一个很强大的解析模块parsel,它的强大之处在于是把上面其中的3大模块集成于一身,一个模块可以干3个模块的事情,你们说它强大吗。所以我就想分享出来,一起和大家交流和学习,parsel这个模块最开始是集成在scrapy框架下的,起初就是用在scrapy下提取数据的,后来scrapy团队把它单独独立出来,成为了一个独立的模块。

1.安装:

模块官网:https://pypi.org/project/parsel/

pip install parsel

2.使用:

# 导入需要的模块
import requests
import parsel

# 需要解析的网页
url = 'http://xxxxxx.com'
# 对该网页发送请求,获取响应
response = requests.get(url)
html_text = response.text
# 使用parsel解析网页
html = parsel.Selector(html_text)
# 使用正则
html.re('正则表达式语法')
# 使用xpath,提取元素的文本数据
html.xpath('xpath的语法/text()').extract()
# 使用css选择器,提取元素的属性里面的数据
html.css('css选择器的语法::attr('元素的属性名字')').extract()
# 还可以结合一起使用
html.xpath('xpath的语法/text').re('正则表达式语法')
# extract():是提取所有匹配出的元素,返回的是一个列表数据 extract_first():是提取单个匹配到的元素,返回的是字符串数据

从上面的代码,我们可以看出,无论是使用xpath,还是css选择器,正则表达式,都需要先创建一个parsel.Selector对象,然后就可以对这个对象进行解析,只不过注意使用这个模块需要对正则,xpath,css选择器的使用有所了解,这里我就不对它们的使用做过多的介绍,感兴趣的可以搜索自行学习,网上这方面的资料很多。

  • 9
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值