python爬虫初步之Xpath实战

最新推荐文章于 2023-04-24 14:48:51 发布

小恋莫小哀

最新推荐文章于 2023-04-24 14:48:51 发布

阅读量513

点赞数 1

分类专栏：爬虫初学文章标签： python3爬虫初学

本文链接：https://blog.csdn.net/wwq114/article/details/88139187

版权

爬虫初学专栏收录该内容

3 篇文章 1 订阅

订阅专栏

python爬虫初步之Xpath实战

使用Xpath提取丁香园论坛的回复内容

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
关于Xpath的学习可参考网址：http://www.w3school.com.cn/xpath/xpath_syntax.asp
一、用户浏览器访问目标网站并检查目标内容所在标签
目标网址是：

http://www.dxy.cn/bbs/thread/626626

我用Chrome访问的，按F12可看见网站结构及回复内容所在标签如下图：
在这里插入图片描述
二、获取回复内容
目标内容在td class="postbody"标签下，利用Xpath获取内容，我们使用Chrome的Xpath Helper插件，可以很方便的写出匹配的Xpath，如下图所示：

可看到匹配的内容已经在右边显示出来了，同样，获取用户名也用这个方法。主要是要掌握Xpath的用法，在开发者模式下右击也可以复制标签的Xpath，不过不建议这样做，因为有的会出错，而且没有技术含量。

三、源码

import urllib.request
from lxml import etree
def main():
    data = []
    s1 = '//div[@class="auth"]/a/text()'
    s2 = '//div/table/tbody/tr/td[@class="postbody"]/text()'
    url = 'http://www.dxy.cn/bbs/thread/626626'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
    }
    request = urllib.request.Request(url, headers=headers)
    html = urllib.request.urlopen(request).read().decode("utf-8")
    # 解析HTML文件为HTML DOM模型
    content = etree.HTML(html)
    userNames = content.xpath(s1)
    cons = content.xpath(s2)
    for user, con in userNames, cons:
        data.append((userNames, con))
    print(data)

if __name__ == '__main__':
    main()