Python爬虫学习记录(二):selenium

Python爬虫学习记录(二):selenium

今天学习了一点selenium,做个记录。

selenium的安装:

Linux: sudo pip3 install selenium
Windows: python -m pip install selenium

selenium包安装好之后还要安装浏览器驱动chromedriver(谷歌)、geckodriver(火狐)。
我只试用了谷歌,火狐就不说了。chromedriver可以到http://npm.taobao.org/mirrors/chromedriver/下载,下载的时候要找到对应你浏览器的正确版本。解压后,把chromedriver.exe拷贝到python安装目录的Scripts目录下(添加到系统环境变量)。

selenium的简单使用:

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
browser.save_screenshot('baidu.png')
browser.quit()

运行时会显示浏览器界面,设置无界面模式就不会显示了。

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
browser = webdriver.Chrome(options=options)
browser.get('http://www.baidu.com/')
browser.save_screenshot('baidu.png')

browser对象的常用方法

browser = webdriver.Chrome(executable_path='path')
browser.get(url)
browser.page_source # 查看响应内容
browser.page_source.find('字符串')
# 从html源码中搜索指定字符串,没有找到返回:-1
browser.quit() # 关闭浏览器

还可以查找节点和对接点操作`

#查找单一节点
browser.find_element_by_id('')
browser.find_element_by_name('')
browser.find_element_by_class_name('')
browser.find_element_by_xpath('')
#查找多个节点
browser.find_elements_by_id('')
browser.find_elements_by_name('')
browser.find_elements_by_class_name('')
browser.find_elements_by_xpath('')
#ele是节点对象,可以进行这些操作
ele.send_keys('') # 搜索框发送内容
ele.click()
ele.text # 获取文本内容
ele.get_attribute('src') # 获取属性值

下面来个实例:获取京东的商品列表,完整代码如下:

from selenium import webdriver
import time

class Jdspider(object):
    def __init__(self):
        self.options = webdriver.ChromeOptions()
        self.options.add_argument('--headless')
        self.url = 'https://www.jd.com/'
        self.browser = webdriver.Chrome(options=self.options)
        self.n=0

    def get_page(self):
        self.browser.get(self.url)
        self.browser.find_element_by_xpath('//*[@id="key"]').send_keys(input("输入要查询的商品:"))
        self.browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button').click()
        time.sleep(2)

    def parse_page(self):
        #下拉滚动条
        self.browser.execute_script(
            'window.scrollTo(0,document.body.scrollHeight)'
        )
		time.sleep(2)
        #匹配所有商品
        li_list=self.browser.find_elements_by_xpath('//*[@id="J_goodsList"]/ul/li')
        for li in li_list:
            info=li.text.split('\n')
            for i in range(len(info)):
                if info[i].startswith('¥'):
                    price=info[i]
                    name=info[i+1]
                    number=info[i+2]
                    market=info[i+3]
                    break
                else:
                    continue

            print(price,name,number,market)
            self.n+=1
            print('共找到 %d个商品'%self.n+'*'*50)

    def main(self):
        self.get_page()
        while True:
        # for i in range(2):
            self.parse_page()

            if self.browser.page_source.find('pn-next disabled')==-1:
                self.browser.find_element_by_class_name('pn-next').click()
                time.sleep(2)
            else:
                break


if __name__=="__main__":
    jd=Jdspider()
    jd.main()

还是取到数据了,就是速度实在是没说的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值