一般我们爬取的内容的html网页,并且从网页中获取我们想要的数据。Scrapy提供了Selectors(选择器)通过xpath和css等方式,选取指定的元素
Selector
Selector构造器需要text或者TextResponse参数。Selector类提供了xpath,css,re三种方式选取元素。
- xpath() 返回SelectorList 实例
- css() 返回SelectorList 实例
- re() 返回匹配的Unicode字符串列表
为了处理方便 为response提供了selector属性。由于经常使用xpath和css,所以提供了简化的方式来调用这两个方法。
response.xpath("") //response.selector.xpath("")
response.css("") //response.selector.css("")
SelectorList
SelectorList 类是内建 list 类的子类,其列表元素实现了 Selector 的接口
- xpath() 对列表中的每个元素调用 .xpath() 方法,返回结果为另一个单一化的 SelectorList 。
- css() 对列表中的各个元素调用 .css() 方法,返回结果为另一个单一化的 SelectorList
- re() 对列表中的各个元素调用 .re() 方法,返回结果为单一化的unicode字符串列表。
- extract() 对列表中的各个元素调用 .extract() 方法,返回结果为单一化的unicode字符串列表
Xpath元素定位
1.xpath选取元素
xpath: xml 路径表达式用于在xml文档中选取节点。它是w3c的标准也可以用来选取HTML元素,因为HTML可以看作xml的子集。
最常用的路径表达式:
- nodeName :选取该节点下的所有子节点。
bookstore
选取bookstore元素下的所有子节点
- /: 从根节点选取,以”/”开始的为绝对路径
/bookstore
选取根元素bookstore
- //: 选择所有匹配的元素(相对路径)。
//book
选取所有的book元素
- .:选取当前节点
- …:选取当前节点的父节点
- @:选取属性
- @class 选属性名为class的所有属性值
- text() :获取元素的文本内容
- contains : 获取包含xx的元素
div[contains(@class,'clear')]
。 选取包含class属性并且属性值为clear的所有div元素h1[contains(text(),'python')]
。获取包含文本“python”的所有h1元素
- starts-with:以什么开头
input[starts-with(@name,'pass')]
。 name属性以pass开头的所有input元素p[starts-with(text(),'P')]
。 内容以P开头的所有p元素。
- ends-width:以什么结尾
input[ends-with(@name,'word')]
上面被[]
括起来的内容称之为谓语,谓语用来查找某个特定的节点或者包含某个指定的值的节点。
2.XPath 轴
轴可定义相对于当前节点的节点集。
- ancestor 选取当前节点的所有先辈(父、祖父等)。
- ancestor-or-self 选取当前节点的所有先辈(父、祖父等)以及当前节点本身。
- attribute 选取当前节点的所有属性。
- child 选取当前节点的所有子元素。
- descendant 选取当前节点的所有后代元素(子、孙等)。
- descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
- following 选取文档中当前节点的结束标签之后的所有节点。
- following-sibling 选取当前节点之后的所有兄弟节点
- namespace 选取当前节点的所有命名空间节点。
- parent 选取当前节点的父节点。
- preceding 选取文档中当前节点的开始标签之前的所有节点。
- preceding-sibling 选取当前节点之前的所有同级节点。
- self 选取当前节点。
- child::book 选取当前元素所有的book子节点
- attribute::lang 选取当前节点的lang属性
- child:: * 选取当前节点的所有子节点
- child::text() 选取当前节点的所有文本子节点
- descendant:: book 当前节点所有book后代元素
轴元素需要配合::
使用,以后跟条件选择或者*
有一个案例比较全的xpath案例网站
css定位
开发人员来对css一定不陌生(ps:我是比较不喜欢调样式什么的)。在Scrapy的选择其中也提供了css的元素选择方式。一般而言使用css会比xpath书写更简单,这对于有过开发基础的人来说入门更简单,也可以加深自己对css选择器的运用。而且jquery中的元素选择sizzle其实源于css选择器。
选择器 例子 例子描述
.class //.intro 选择 class="intro" 的所有元素。
#id // #firstname 选择 id="firstname" 的所有元素。
* //* 选择所有元素。
element //p 选择所有 <p> 元素。
element,element //div,p 选择所有 <div> 元素和所有 <p> 元素。
element element //div p 选择 <div> 元素内部的所有 <p> 元素。
element>element //div>p 选择父元素为 <div> 元素的所有 <p> 元素。
element+element //div+p 选择紧接在 <div> 元素之后的所有 <p> 元素。
[attribute] //[target] 选择带有 target 属性所有元素。
[attribute=value] //[target=_blank] 选择 target="_blank" 的所有元素。
[attribute~=value] //[title~=flower] 选择 title 属性包含单词 "flower" 的所有元素。
[attribute|=value] //[lang|=en] 选择 lang 属性值以 "en" 开头的所有元素。
:link //a:link 选择所有未被访问的链接。
:visited //a:visited 选择所有已被访问的链接。
:active //a:active 选择活动链接。
:hover //a:hover 选择鼠标指针位于其上的链接。
:focus //input:focus 选择获得焦点的 input 元素。
:first-letter //p:first-letter 选择每个 <p> 元素的首字母。
:first-line //p:first-line 选择每个 <p> 元素的首行。
:first-child //p:first-child 选择属于父元素的第一个子元素的每个 <p> 元素。
:before //p:before 在每个 <p> 元素的内容之前插入内容。
:after //p:after 在每个 <p> 元素的内容之后插入内容。
:lang(language) //p:lang(it) 选择带有以 "it" 开头的 lang 属性值的每个 <p> 元素。
element1~element2 //p~ul 选择前面有 <p> 元素的每个 <ul> 元素。
[attribute^=value] //a[src^="https"] 选择其 src 属性值以 "https" 开头的每个 <a> 元素。
[attribute$=value] //a[src$=".pdf"] 选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素。
[attribute*=value] //a[src*="abc"] 选择其 src 属性中包含 "abc" 子串的每个 <a> 元素。
:first-of-type //p:first-of-type 选择属于其父元素的首个 <p> 元素的每个 <p> 元素。
:last-of-type //p:last-of-type 选择属于其父元素的最后 <p> 元素的每个 <p> 元素。
:only-of-type //p:only-of-type 选择属于其父元素唯一的 <p> 元素的每个 <p> 元素。
:only-child //p:only-child 选择属于其父元素的唯一子元素的每个 <p> 元素。
:nth-child(n) //p:nth-child(2) 选择属于其父元素的第二个子元素的每个 <p> 元素。
:nth-last-child(n) //p:nth-last-child(2) 同上,从最后一个子元素开始计数。
:nth-of-type(n) //p:nth-of-type(2) 选择属于其父元素第二个 <p> 元素的每个 <p> 元素。
:nth-last-of-type(n) //p:nth-last-of-type(2) 同上,但是从最后一个子元素开始计数。
:last-child //p:last-child 选择属于其父元素最后一个子元素每个 <p> 元素。
:root //:root 选择文档的根元素。
:empty //p:empty 选择没有子元素的每个 <p> 元素(包括文本节点)。
:target //#news:target 选择当前活动的 #news 元素。
:enabled //input:enabled 选择每个启用的 <input> 元素。
:disabled //input:disabled 选择每个禁用的 <input> 元素
:checked //input:checked 选择每个被选中的 <input> 元素。
:not(selector) //:not(p) 选择非 <p> 元素的每个元素。
::selection //::selection 选择被用户选取的元素部分。
其中后代选择器我经常弄错,现在梳理以下
<body>
<div id="div1">
<div id="div2">
<div id="div3">
xxxxxx
</div>
<ul>
</ul>
<div id="div4">
</div>
</div>
</div>
</body>
后代元素
选取位于element1 下的所有element2 元素。包括子元素和后代元素
element1 element2 //body div 选区所有div元素
子元素
与后代选择器相比,子元素选择器只能选择作为某元素子元素的元素。自匹配子元素不匹配后代元素
element > element
兄弟元素
相邻兄弟选择器可选择紧接在另一元素后的元素,且二者有相同父元素。
element + element
该选择器匹配出现在 element1 后面的所有 element2,两中元素具有相同的父元素
element1~element2
例子:
- 获取一个页面所有的链接的方式
#xpath
//a/@href
//a/attribute::href
#css
a::attr(href)
2.选取名字为username的输入框的值
//input[contains(@name,'username')]/text()
input[name*='username']::text
测试
定位元素时很容易出错,这样为了测试 路径 可能需要频繁启动服务。其实在控制台可以测试定位路径是否正确。
xpath:
$x(“xpath_selector”)
css:
$$(“css_path”)