一.xpath的使用
1 css xpath 通用的
2 XPath 使用路径表达式在 XML 文档中选取节点
3 lxml模块为例,讲xpath选择(selenium,scrapy---》css/xpath)
4 用法:
# / :从当前节点开始选择,子节点
# // :从当前节点开始选择,子子节点
# @选取属性a[@href="image1.html"],选择a标签,href属性为image1.html
# .. 表示父节点
# /a[3] 选当前节点下第一个a标签
# /text() 取这个标签的文本
# /@href 获取href属性
# /a[contains(@class,"li")] 类名中有li的a标签
# /a[@class='li'] 类名等于li的a标签
二.selenium爬取京东商品信息
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
# 定义爬取函数
def get_goods(bro):
# 滑倒屏幕底部
bro.execute_script('scroll(0,document.body.scrollHeight)')
li_list = bro.find_elements_by_class_name('gl-item')
for li in li_list:
try:
img_url = li.find_element_by_css_selector('.p-img>a>img').get_attribute('src')