Python爬虫学习记录（二）：selenium

最新推荐文章于 2022-05-22 16:38:41 发布

冰河666

最新推荐文章于 2022-05-22 16:38:41 发布

阅读量448

点赞数 1

文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/weixin_45872150/article/details/103140062

版权

Python爬虫学习记录（二）：selenium

今天学习了一点selenium，做个记录。

selenium的安装：

Linux: sudo pip3 install selenium
Windows: python -m pip install selenium

selenium包安装好之后还要安装浏览器驱动chromedriver（谷歌）、geckodriver（火狐）。
我只试用了谷歌，火狐就不说了。chromedriver可以到http://npm.taobao.org/mirrors/chromedriver/下载，下载的时候要找到对应你浏览器的正确版本。解压后，把chromedriver.exe拷贝到python安装目录的Scripts目录下(添加到系统环境变量)。

selenium的简单使用：

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
browser.save_screenshot('baidu.png')
browser.quit()

运行时会显示浏览器界面，设置无界面模式就不会显示了。

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
browser = webdriver.Chrome(options=options)
browser.get('http://www.baidu.com/')
browser.save_screenshot('baidu.png')

browser对象的常用方法

browser = webdriver.Chrome(executable_path='path')
browser.get(url)
browser.page_source # 查看响应内容
browser.page_source.find('字符串')
# 从html源码中搜索指定字符串,没有找到返回：-1
browser.quit() # 关闭浏览器

还可以查找节点和对接点操作`

#查找单一节点
browser.find_element_by_id('')
browser.find_element_by_name('')
browser.find_element_by_class_name('')
browser.find_element_by_xpath('')
#查找多个节点
browser.find_elements_by_id('')
browser.find_elements_by_name('')
browser.find_elements_by_class_name('')
browser.find_elements_by_xpath('')
#ele是节点对象，可以进行这些操作
ele.send_keys('') # 搜索框发送内容
ele.click()
ele.text # 获取文本内容
ele.get_attribute('src') # 获取属性值

下面来个实例：获取京东的商品列表，完整代码如下：

from selenium import webdriver
import time

class Jdspider(object):
    def __init__(self):
        self.options = webdriver.ChromeOptions()
        self.options.add_argument('--headless')
        self.url = 'https://www.jd.com/'
        self.browser = webdriver.Chrome(options=self.options)
        self.n=0

    def get_page(self):
        self.browser.get(self.url)
        self.browser.find_element_by_xpath('//*[@id="key"]').send_keys(input("输入要查询的商品："))
        self.browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button').click()
        time.sleep(2)

    def parse_page(self):
        #下拉滚动条
        self.browser.execute_script(
            'window.scrollTo(0,document.body.scrollHeight)'
        )
		time.sleep(2)
        #匹配所有商品
        li_list=self.browser.find_elements_by_xpath('//*[@id="J_goodsList"]/ul/li')
        for li in li_list:
            info=li.text.split('\n')
            for i in range(len(info)):
                if info[i].startswith('￥'):
                    price=info[i]
                    name=info[i+1]
                    number=info[i+2]
                    market=info[i+3]
                    break
                else:
                    continue

            print(price,name,number,market)
            self.n+=1
            print('共找到 %d个商品'%self.n+'*'*50)

    def main(self):
        self.get_page()
        while True:
        # for i in range(2):
            self.parse_page()

            if self.browser.page_source.find('pn-next disabled')==-1:
                self.browser.find_element_by_class_name('pn-next').click()
                time.sleep(2)
            else:
                break


if __name__=="__main__":
    jd=Jdspider()
    jd.main()