获取页面数据之BeautifulSoup()方法
自动化中经常需要从页面获取数据,然后将数据用在测试代码中。那么如何从页面拿到想要的数据呢?此处介绍两种我比较习惯的方法:
1、常规方法:根据标签属性获取数据。
通过F12定位元素,查看数据在标签规律,从属性、text等获取数据。
def get_title_num_list(self): title_num = [] length = len(self.driver.find_elements(By.XPATH, '//div[@role="tab"]')) for x in range(1, length + 1): num = self.driver.find_element(By.XPATH, '(//div[@role="tab"][' + str(x) + ']//span)[1]').text title_num.append(num) return title_num
2、用BeautifulSoup从源码查找需要的数据。
从BeautifulSoup可以用来解析HTML和XML页面数据,把网页数据变成树状结构的标签元素,再从找查找需要的数据。BeautifulSoup()需要两个参数,一个是文件名(可以是直接从网页读取,也可以是保存好的文件),另外一个是解析器,从web网页读取数据,直接使用html.parser即可。find_all是返回你查找的标签信息,只要不报错,可以一直使用find_all直至查到你需要的信息为止。
from bs4 import BeautifulSoup
def get_bpm_page_item_list(self, item): all_list = {} pattern = re.compile(r'[\u4e00-\u9fa5]+') soup = BeautifulSoup(self.driver.page_source, 'html.parser') input_list = soup.find_all("div", {'class': 'el-card__body'})[0].find_all("input") button_list = soup.find_all("div", {'class': 'el-card__body'})[0].find_all("button") for i in range(0, len(input_list)): input_list[i] = pattern.findall(str(input_list[i]))[0]... ...