xpath抓取值时遇到有\r\n\t时,去掉的方法

xpath抓取值时候有\r\n\t时,去掉的方法

原问题描述

使用xpath抓取数据时遇到抓取值时遇到下面情况

['\n                             2021-10-20\n                        ']

源代码为

html_element = etree.HTML(text1)
data_element = html_element.xpath('//div[@class="main_content_container"]')
for i in data_element:
    publishDate = i.xpath('div[@class="main_content_top"]/div[@class="main_content_detail_top"]/ul/li[@class="dateMove"]/span/text()')
publishDate

解决办法

解决办法为 在Xpath中添加normalize-space(),修改后的代码为

html_element = etree.HTML(text1)
data_element = html_element.xpath('//div[@class="main_content_container"]')
for i in data_element:
    publishDate = i.xpath('normalize-space(div[@class="main_content_top"]/div[@class="main_content_detail_top"]/ul/li[@class="dateMove"]/span/text())')
publishDate
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值