点赞发Nature
这次更新了多地区,多时间段,多关键字爬取。
其实比较简单,就是加了几个循环语句。
稍微进行了一些关键字筛选方法优化,用的是dataframe.str.contains
方法,而不是直接用==
比较了
为的是可以进行大量数据爬取,测试了固定资产、GDP的爬取,是成功的。
def find_table(indicator, region, year):
wait = WebDriverWait(browser, 40,)
browser.find_element_by_name("IndicateName").clear()
browser.find_element_by_name("IndicateName").send_keys(indicator)
browser.find_element_by_name("IndicateRegion").clear()
browser.find_element_by_name("IndicateRegion").send_keys(region)
browser.find_element_by_name("EndYear").send_keys(