爬虫(2)之 Xpath（爬取丁香园）

最新推荐文章于 2021-12-01 22:22:29 发布

yzhua_777

最新推荐文章于 2021-12-01 22:22:29 发布

阅读量401

点赞数 1

分类专栏：爬虫技术文章标签： python xpath 爬虫

本文链接：https://blog.csdn.net/yzhua_777/article/details/105740487

版权

5 篇文章 0 订阅

订阅专栏

XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径选取的。下面列出了最常用的路径表达式：

导入库：from lxml import etree
lxml将html文本转成xml对象
- tree = etree.HTML(html)
用户名称：tree.xpath(’//div[@class=“auth”]/a/text()’)
回复内容：tree.xpath(’//td[@class=“postbody”]’) 因为回复内容中有换行等标签，所以需要用string()来获取数据。
- string()的详细见链接：https://www.cnblogs.com/CYHISTW/p/12312570.html
Xpath中text()，string()，data()的区别如下：
- text()仅仅返回所指元素的文本内容。
- string()函数会得到所指元素的所有节点文本内容，这些文本讲会被拼接成一个字符串。
- data()大多数时候，data()函数和string()函数通用，而且不建议经常使用data()函数，有数据表明，该函数会影响XPath的性能。

#导入相关的库
import requests
from lxml import etree
url = 'http://www.dxy.cn/bbs/thread/626626#626626'

res = requests.get(url)
html = res.text

在这里插入图片描述

tree = etree.HTML(html)#这里的html是内容
tree

在这里插入图片描述

#获取用户
user = tree.xpath('//div[@class="auth"]/a/text()')
user

在这里插入图片描述

#获取回复的内容
content = tree.xpath('//td[@class="postbody"]')
content

在这里插入图片描述

results = []
for i in range(0, len(user)):
    results.append(user[i].strip()+': '+content[i].xpath('string(.)').strip())

for i in results:
    print(i)

在这里插入图片描述
进一步优化

for i, result in zip(range(0, len(user)), results):
    print('user'+str(i+1)+'-'+result)
    print('*'*100)

在这里插入图片描述

关注

专栏目录