Python爬虫学习记录(二):selenium
今天学习了一点selenium,做个记录。
selenium的安装:
Linux: sudo pip3 install selenium
Windows: python -m pip install selenium
selenium包安装好之后还要安装浏览器驱动chromedriver(谷歌)、geckodriver(火狐)。
我只试用了谷歌,火狐就不说了。chromedriver可以到http://npm.taobao.org/mirrors/chromedriver/下载,下载的时候要找到对应你浏览器的正确版本。解压后,把chromedriver.exe拷贝到python安装目录的Scripts目录下(添加到系统环境变量)。
selenium的简单使用:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
browser.save_screenshot('baidu.png')
browser.quit()
运行时会显示浏览器界面,设置无界面模式就不会显示了。
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
browser = webdriver.Chrome(options=options)
browser.get('http://www.baidu.com/')
browser.save_screenshot('baidu.png')
browser对象的常用方法
browser = webdriver.Chrome(executable_path='path')
browser.get(url)
browser.page_source # 查看响应内容
browser.page_source.find('字符串')
# 从html源码中搜索指定字符串,没有找到返回:-1
browser.quit() # 关闭浏览器
还可以查找节点和对接点操作`
#查找单一节点
browser.find_element_by_id('')
browser.find_element_by_name('')
browser.find_element_by_class_name('')
browser.find_element_by_xpath('')
#查找多个节点
browser.find_elements_by_id('')
browser.find_elements_by_name('')
browser.find_elements_by_class_name('')
browser.find_elements_by_xpath('')
#ele是节点对象,可以进行这些操作
ele.send_keys('') # 搜索框发送内容
ele.click()
ele.text # 获取文本内容
ele.get_attribute('src') # 获取属性值
下面来个实例:获取京东的商品列表,完整代码如下:
from selenium import webdriver
import time
class Jdspider(object):
def __init__(self):
self.options = webdriver.ChromeOptions()
self.options.add_argument('--headless')
self.url = 'https://www.jd.com/'
self.browser = webdriver.Chrome(options=self.options)
self.n=0
def get_page(self):
self.browser.get(self.url)
self.browser.find_element_by_xpath('//*[@id="key"]').send_keys(input("输入要查询的商品:"))
self.browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button').click()
time.sleep(2)
def parse_page(self):
#下拉滚动条
self.browser.execute_script(
'window.scrollTo(0,document.body.scrollHeight)'
)
time.sleep(2)
#匹配所有商品
li_list=self.browser.find_elements_by_xpath('//*[@id="J_goodsList"]/ul/li')
for li in li_list:
info=li.text.split('\n')
for i in range(len(info)):
if info[i].startswith('¥'):
price=info[i]
name=info[i+1]
number=info[i+2]
market=info[i+3]
break
else:
continue
print(price,name,number,market)
self.n+=1
print('共找到 %d个商品'%self.n+'*'*50)
def main(self):
self.get_page()
while True:
# for i in range(2):
self.parse_page()
if self.browser.page_source.find('pn-next disabled')==-1:
self.browser.find_element_by_class_name('pn-next').click()
time.sleep(2)
else:
break
if __name__=="__main__":
jd=Jdspider()
jd.main()
还是取到数据了,就是速度实在是没说的。