如何获取页面数据

大头大头下雨不愁~

已于 2024-04-28 14:00:36 修改

阅读量445

点赞数 4

文章标签： beautifulsoup

于 2024-04-28 13:49:11 首次发布

本文链接：https://blog.csdn.net/weixin_51997580/article/details/138275250

版权

获取页面数据之BeautifulSoup()方法

自动化中经常需要从页面获取数据，然后将数据用在测试代码中。那么如何从页面拿到想要的数据呢？此处介绍两种我比较习惯的方法：

1、常规方法：根据标签属性获取数据。

通过F12定位元素，查看数据在标签规律，从属性、text等获取数据。

def get_title_num_list(self):
    title_num = []
    length = len(self.driver.find_elements(By.XPATH, '//div[@role="tab"]'))
    for x in range(1, length + 1):
        num = self.driver.find_element(By.XPATH, '(//div[@role="tab"][' + str(x) + ']//span)[1]').text
        title_num.append(num)
    return title_num

2、用BeautifulSoup从源码查找需要的数据。

从BeautifulSoup可以用来解析HTML和XML页面数据，把网页数据变成树状结构的标签元素，再从找查找需要的数据。BeautifulSoup（）需要两个参数，一个是文件名（可以是直接从网页读取，也可以是保存好的文件），另外一个是解析器，从web网页读取数据，直接使用html.parser即可。find_all是返回你查找的标签信息，只要不报错，可以一直使用find_all直至查到你需要的信息为止。

from bs4 import BeautifulSoup

def get_bpm_page_item_list(self, item):
    all_list = {}
    pattern = re.compile(r'[\u4e00-\u9fa5]+')
    soup = BeautifulSoup(self.driver.page_source, 'html.parser')
    input_list = soup.find_all("div", {'class': 'el-card__body'})[0].find_all("input")
    button_list = soup.find_all("div", {'class': 'el-card__body'})[0].find_all("button")
    for i in range(0, len(input_list)):
        input_list[i] = pattern.findall(str(input_list[i]))[0]... ...

大头大头下雨不愁~

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
如何获取页面数据

从BeautifulSoup可以用来解析HTML和XML页面数据，把网页数据变成树状结构的标签元素，再从找查找需要的数据。自动化中经常需要从页面获取数据，然后将数据用在测试代码中。那么如何从页面拿到想要的数据呢？通过F12定位元素，查看数据在标签规律，从属性、text等获取数据。2、用BeautifulSoup从源码查找需要的数据。1、常规方法：根据标签属性获取数据。
复制链接

扫一扫