爬虫笔记（3）| 用Xpath来提取——新闻+小说起点+猫眼电影

最新推荐文章于 2023-05-10 09:42:20 发布

不太累的码农

最新推荐文章于 2023-05-10 09:42:20 发布

阅读量591

点赞数

分类专栏：爬虫笔记文章标签： python xpath html 正则表达式

本文链接：https://blog.csdn.net/weixin_52720197/article/details/115314018

版权

本文介绍了如何使用Xpath在Python中解析网页，提取新闻和猫眼电影的数据。从分析网页到编写代码，详细讲解了如何通过Xpath选取特定元素，并展示了获取HTML内容和过滤数据的技巧。

摘要由CSDN通过智能技术生成

大家好，作为一名互联网行业的小白，写博客只是为了巩固自己学习的知识，但由于水平有限，博客中难免会有一些错误出现，有不妥之处恳请各位大佬指点一二！
博客主页：链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.5343

1，分析网页

打开网页搜索<新闻>——点击所需的内容
在这里插入图片描述
如何获取所需的内容呢？——右击检查——打开源代码

但是这样写的话，数据就太多了，所以我们要进行数据过滤，可以根据里面的相应的属性去过滤
用[@+属性]

想获取第一个数据

获取的是li中的第一个数据
在这里插入图片描述
获取a中的属性

注意
要过滤时：[@+属性]
要里面具体属性时：/@+属性

想获取具体的文本时：用text（）即可
在这里插入图片描述
在html中

相对来说是比较少的，可以准确地定位

2.用Xpath写入python代码中

爬取图书的名称+作者

2.1导入包

from fake_useragent import UserAgent
import requests
from lxml import etree

2.2写url

在这里插入图片描述

url = 'https://www.qidian.com/rank/yuepiao'

用Xpath提取数据
在这里插入图片描述

# 图书名称
names = e.xpath('//div[@class="book-mid-info"]/h4/a/text()')

在这里插入图片描述

# 图书作者
authors = e.xpath('//p[@class="author"]/a[1]/text()')

具体代码如下：

from fake_useragent import UserAgent
import requests
from lxml import etree

url = 'https://www.qidian.com/rank/yuepiao'
header = {
   'User-Agent': UserAgent().chrome}
resp = requests.get(url, headers=header)
# print(resp.text)
e =

最低0.47元/天解锁文章

不太累的码农

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记（3）| 用Xpath来提取——新闻+小说起点+猫眼电影

大家好，作为一名互联网行业的小白，写博客只是为了巩固自己学习的知识，但由于水平有限，博客中难免会有一些错误出现，有不妥之处恳请各位大佬指点一二！博客主页：链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431，...
复制链接

扫一扫