需要爬取带下拉框选择的网站表格里的数据:波兰民用太阳能补贴项目的网站 https://mojprad.gov.pl/wyniki-naboru
开始打算用BeautifulSoup,不过没研究明白怎么实现下拉框选择和确认(如果有大神知道如何实现的话,求私信!!)。
后来,发现用selenium这个做网站自动化测试的包,用来做网站数据爬取简直不要太方便。
以下为最终实现的对带下拉框的网站表格进行爬取的实例。分步式解析~
前期准备:
这里使用的是chrome+selenium。使用前需要先下载chromdriver.exe并做好配置工作,这里就不详述了,CSDN可以为您解答。
以下是做好配置工作,selenium可以成功调用后的步骤:
第一步,打开网站。
#使用selenium读取网站表格数据
#被读取的表格数据需要进行下拉框选择
#拟爬取的网站
url = 'https://mojprad.gov.pl/wyniki-naboru'
#打开网站
from selenium import webdriver
driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')
driver.get(url)
运行上述步骤后,应该会自动打开拟爬取的网站,同时在浏览器上方会有一行字,提示chrome在收到自动测试软件的控制,如下图:
第二步,定位下拉框位置
#选择网站中的下拉框并点击
from selenium.webdriver.<