Scrapy第七篇：xpath部分注意点

原创已于 2022-08-19 10:51:24 修改 · 493 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #python #开发语言

于 2022-08-15 10:02:11 首次发布

scrapy 专栏收录该内容

19 篇文章

订阅专栏

博客介绍了Scrapy中XPath的使用技巧，包括根据标签内容text定位，同时使用两个属性值时用and连接，将html转为可解析对象，获取标签属性值和插槽内容，还提到定位不到元素可结合WebDriverWait，以及用正则表达式提取脏数据中的有效信息。

①xpath根据标签内容text来定位

driver.find_element_by_xpath("//div[@class='outside']//a[contains(text(),'最近浏览')]")

如果定位不到，则说明未加载完毕，可以结合WebDriverWait使用，等待元素出现为止。

②xpath 同时具有两个属性值，使用and连接即可

'//div[@class="icon item" and @rel="next"]/@href'

③把html转成xpath可以解析的对象

from lxml import etree

response_detail = requests.get(src__url, headers=getHeaderObject()).content            
# 使用xpath
page_source = etree.HTML(response_detail.decode('utf-8'))

④获取标签属性值：@属性名称

response.xpath('//table[@class="gPanel"]//input[@class="gCurrentPage"]/@value').get()

response.xpath('//table[@class="gPanel"]//a[@class="pgNext"]/@href').get()

⑤获取标签插槽内容，即开始标签和结束标签之间的内容：text()

response.xpath('//table[@class="gPanel"]//span[@class="TotalPage"]/text()').get()

⑥有时候拿到数据的时候掺杂了很多脏数据，这时候还需要使用正则表达式进行提取

next_page_num = re.findall('pageNum=([\d]+)', response.xpath(
                '//a[@class="pgNext"]/@href').get())[0]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

文子阳

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

64万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

地球上最好用的爬虫框架：Scrapy异步爬虫框架:

m0_72458808的博客

06-09

1639

在scrapy中，具体工作流程是这样的：当scrapy框架启动时，首先引擎会到爬虫中获取起始URL, 当引擎获取到起始url 后，会将这个url封装成一个Request 请求对象交给调度器而这个调度器拥有两个功能，过滤器就是过滤掉已经完成的请求对象，而请求队列则是维护了一个很多请求对象的队列，言归正传，调度器会再次将请求队列中的Request 请求对象通过引擎交给。

参与评论您还未登录，请先登录后发表或查看评论

精通scrapy网络爬虫——第三章 response.xpath()and css()基础语法

Three123v的博客

11-07

3504

首先创建一个用于演示的HTML文档，并构造一个HtmlResponse对象 from scrapy.selector import Selector from scrapy.http import HtmlResponse body = ''' <html> <head> <base href='http://example.com/' /&...

xpath contains_XPath

weixin_39764487的博客

11-24

427

1、什么是XPah1.解析XML的一种语言（html其实是XML的子级），广泛用于解析html数据2.几乎所有语言都能用XPath3.除了XPath还有其他手段用于XML解析，比如：BeautifulSoup、lxml、DOM等等2、XPath语法XPath语法归纳起来就是三大类：层级：/ 直接子级、 // 跳级属性：@ 属性访问函数：contains() 、 text() 等3、使用XPath...

scrapy框架开发爬虫实战——xpath语法

万锦

10-10

551

xml文档结构 xml文档（html属于xml）是由一系列节点构成的树，例如： xpath基本语法表： xpath例子 /：描述一个从根开始的绝对路径。 >>> response.xpath('/html') E1/E2：选中E1子节点中的所有E2。 # 选中div子节点中的所有a >>> response.xpa...

xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得

weixin_39682560的博客

11-24

201

说来好笑，刚学习爬虫的时候为了调试代码，是将网页下载到本地，再用beautifulsoup载入本地网页文件进行分析，以保证选择器编写正确。Scrapy内置的调试器Scrapy Shell正好作此用途，使用的选择器则是xpath。下面是两篇scrapy shell 和 xpath selector的教程。Scrapy Tutorial #6: Scrapy Shell Overview & ...

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

pdcfighting的博客

10-20

518

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤青山隐隐水迢迢，秋尽江南草未凋。/前言/上一篇文章我们讲述了网页...

Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解

九月镇灵将的博客

03-04

1451

XPath，全称为XML Path Language，是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML，还常用于处理HTML文档。

scrapy中xpath示例用法

06-23

XPath是一种在XML（以及HTML）文档中查找信息的语言，是Scrapy中不可或缺的一部分，用于从HTML或XML源代码中提取所需的数据。在这个"scrapy-xpath-示例用法.py"文件中，我们可以期待看到一系列关于如何在Scrapy项目...

2024年python安装scrapy运行测试代码出现LookupError: unknown encoding: ‘b‘utf8‘‘的解决办法

最新发布

HG0724的博客

08-08

1995

LookupError: unknown encoding: 'b'utf8'' 出错的解决办法

scrapy的注意点的问题

ljf520lhy的博客

11-21

400

scrapy使用注意点：开启管道，设置请求头

scrapy的一些容易忽视的点（模拟登陆，传递item等）

weixin_33973609的博客

03-27

357

scrapy爬虫注意事项一、item数据只有最后一条这种情况一般存在于对标签进行遍历时，将item对象放置在了for循环的外部。解决方式：将item放置在for循环里面。二、item字段传递后错误，混乱有时候会遇到这样的情况，item传递几次之后，发现不同页面的数据被混乱的组合在了一起。这种情况一般存在于item的传递过程中，没有使用深拷贝。解决方式：使用深拷贝来...

Xpath 规则

平凡之路

11-15

856

1.从根路径开始的绝对路径方式获取/AAA 例子：获取所有AAA下的BBB下的所有CCC：/AAA/BBB/CCC 2.所有指定名称的元素//AAA 例子：获取所有名称为AAA的元素 3.使用*号匹配福获得所有满足条件的元素例子:获取AAA下BBB下所有的元素：/AAA/BBB/* 4.使用中括号，获取多个匹配元素中的某一个，可以使用last()函数获取最后一个例子:获取AAA

Xpath使用实例和需要注意的事项

子敬的技术博客

12-11

1208

Xpath使用实例和需要注意的事项 Xpath的语法介绍就不赘述了，参考：https://blog.csdn.net/u011486491/article/details/84061432 这篇文章就以实际使用为例，对一些xpath比较复杂的情况进行讨论使用。常用的标签提取字段 <li class="tjqyList-content"> <div class=...

关于response.xpath的代码

weixin_42579969的博客

02-09

640

response.xpath是一个Scrapy框架中的方法，用于从网页响应中提取数据。它通过使用XPath语法，可以查询并提取HTML页面中的特定元素。下面是一个示例代码，它演示了如何使用response.xpath从网页响应中提取所有标题元素： titles = response.xpath("//h1/text()").extract() for title in titles: p...

Python 爬虫知识点 - XPath

weixin_33853794的博客

12-14

364

http://cuiqingcai.com/2621.html 一、基础介绍 <bookstore> 　　<book> 　　　　<title>Harry Potter</title> 　　　　<author>J K. Rowling</author> 　　　　<year>2

Scrapy爬虫Xpath编写规则梳理

黄勇的博客

09-12

1508

进入浏览器的开发者模式（F12），选取需要获取的节点，如果我们想获取一个列表，例如：在li节点上右键，copy->copy xpath即可获取当前节点的Xpath路径，直接复制如下： /html/body/div[4]/div[1]/ul/li[1] 这个不能直接使用，这个是获取了li节点第一个元素，爬虫里我们需要获取一个集合，用来for循环，所以在爬虫开头里需要修...

Scrapy里面的Xpath解析器问题

晦涩难董先生

02-20

2532

Scrapy的Selector对象和lxml的Element对象有一些区别，所以在提取数据时需要使用相应的方法进行处理。scrapy会在内置里面处理得比较感觉,xpath会比较繁琐一些!Scrapy的XPath解析器在语法上与lxml类似，但在返回值类型、属性选择器、命名空间、默认上下文、默认转义和匹配顺序等方面有一些细微的差别。熟悉这些区别将有助于你更好地使用Scrapy进行数据抓取和解析。

scrapy提取数据之：xpath选择器

superwshu

04-15

3913

css选择器；虽然一招半式足以称霸江湖，但这里老夫还想再传授诸位一招：xpath提取！好好学，技多不压身。还是从几个方面说：一、属性提取；二、内容提取；三、标签内包含标签又包含标签的最外层标签里的所有内容提取；会了这些基本也就会了，反正scrapy用到的就这么几个知识，少之又少，不要想着除了这些还有神马冰上之下，绝对木有，请放心，如果真的有，我会再末尾给诸君写一些例子，依葫芦画瓢就行，那接下来就开...

Scrapy 0.24.0电子书教程：Python爬虫框架指南

- **Scrapy Tutorial**: 逐步引导用户创建第一个Scrapy项目。 - **Examples**: 提供实际的代码示例，展示Scrapy的用法。 **解决特定问题** - **调试Spiders**: 提供了各种调试技巧，如使用Scrapy Shell进行交互式...