06爬虫-selenium定位获取标签对象并提取数据

selenium提取数据

知识点:
了解driver对象的常用属性和方法
掌握driver对象定位标签元素获取标签对象的方法
掌握标签对象提取文本和属性值的方法

driver对象的常用属性和方法

在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法

1.driver.page_source当前标签页浏览器渲染之后的网页源代码
2.driver.current_url当前标签页的url
3.driver.close()关闭当前标签页,如果只有一个标签页则关闭整个浏览器
4.driver.quit()关闭浏览器
5.driver.forward()页面前进
6.driver.back()页面后退
7.driver.screen_shot(img_name)页面截图

driver对象定位标签元素获取标签对象的方法

在selenium中可以通过多种方式来定位标签,返回标签元素对象

find_element_by._id(返回一个元素)
find_element(s)_by_class_name(根据类名获取元素列表)
find_element(s)_by_name(根据标签的name属性值返回包含标签对象元素的列表)
find_element(s)by_xpath(返回一个包含元素的列表)
find_element(s)_by_link_text(根据连接文本获取元素列表)
find_element(s)_by_partial_link_text(根据链接包含的文本获取元素列表)
find_element(s)_by_tag-name(根据标签名获取元素列表)
find_element(s)_by_css(根据css选择器来获取元素列表)

#coding:utf-8
from selenium import webdriver

# 1.创建浏览器对象
driver = webdriver.Chrome()

# 2.操作浏览器对象
driver.get('http://www.baidu.com')

# 2.定位元素
driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python37')
driver.find_element_by_id('kw').send_keys('python37')
driver.find_element_by_name('wd').send_keys('python37')
# 通过class属性值进行元素定位
driver.find_element_by_class_name('s_ipt').send_keys('python37')
driver.find_element_by_css_selector('#kw').send_keys('python37')
driver.find_element_by_xpath('//*[@id="su"]').click()

print(driver.find_element_by_tag_name('title'))

# 通过含有链接的完整文本内容进行元素定位   链接文本(链接和文本在同一个标签中)
driver.find_element_by_link_text('hao123').click()
driver.find_element_by_partial_link_text('hao').click()

find_element_by_xxx
定位到则是一个对象
定位不到则报错

find_elements_by_xxx
定位到则是一个含有元素的列表
定位不到则是一个空列表

标签对象提取文本内容和属性值

find_element仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法

  • 对元素执行点击操作element.click()
    对定位到的标签对象进行点击操作

  • 向输入框输入数据element.send_keys(data)
    对定位到的标签对象输入数据

  • 获取文本element.text
    通过定位获取的标签对象的text属性,获取文本内容

  • 获取属性值element.get_attribute("属性名")
    通过定位获取的标签对象的get_attribute函数,传入属性名,来获取属性的值

#coding:utf-8
from selenium import webdriver


# 1.创建浏览器对象
driver = webdriver.Chrome()

# 2.操作浏览器对象
driver.get('https://lfyanjiao.58.com/hezu/?PGTID=0d100000-0320-44c6-c018-2374633dc940&ClickID=2')

#返回一个列表
el_list = driver.find_elements_by_xpath('/html/body/div[5]/div/div[5]/div[2]/ul/li/div[2]/h2/a')

# print(len(el_list))
# print(el_list)

for el in el_list:
    print(el.text,el.get_attribute('href'))


# el.send_keys(data), 该元素必须能够接受数据 input/text
# el.click()    该元素必须能够接受点击操作
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值