爬虫问题记录(xpath)——一行文本被xpath解析成多行文本

首先先来看网页结构:

 网页显示文本:

 Python的xpath解析出来的结果:

 出现问题的xpath写法:

xpath =  etree.xpath("//*[@id='review-list']//ul//div[4]/text()")
print(xpath)

可以看到在网页结构中,文本中间插入了img标签元素,在加上写xpath时在xpath后面添加了

/text()

就会导致这个问题的出现。

暂时的解决方法:

xpath =  etree.xpath("//*[@id='review-list']//ul//div[4]")
print(xpath.text)

把要获取的文本内容移动到xpath之后就可以了,就是还有个问题,这样子就只会匹配到第一个文本。

后面的文本匹配不到,这个问题后面再看看怎么解决。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值