Selenium学习三——利用Python爬取网页表格数据并存到excel

最新推荐文章于 2024-04-30 13:19:06 发布

晓晓星辰

最新推荐文章于 2024-04-30 13:19:06 发布

阅读量2.7w

点赞数 17

分类专栏： Selenium Python

本文链接：https://blog.csdn.net/yxStory/article/details/78085444

版权

Python 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

Selenium

14 篇文章 1 订阅

订阅专栏

利用Python爬取网页表格数据并存到excel

1、具体要求：

读取教务系统上自己的成绩单，并保存到本地的excel中

2、技术要求：

利用Selenium+Python获取网页，自动登陆并操作到成绩单页面

通过xlwt模块，将表格保存到本地excel

（其中xlwt模块通过cmd打开命令框，输入pip install xlwt下载）

3、主要代码：

#创建工作簿
wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)
#创建工作表
sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)
#表头（table_top_list包含表头每一列的值）
table_top_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/thead/tr").find_elements_by_tag_name('td')
#写入表头到sheet 1中，第0行第c列
for c,top in enumerate(table_top_list):
    sheet.write(0, c, top.text)

# 表的内容
#将表的每一行存在table_tr_list中
table_tr_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/tbody").find_elements_by_tag_name('tr')
for r,tr in enumerate(table_tr_list,1):
    #将表的每一行的每一列内容存在table_td_list中
    table_td_list = tr.find_elements_by_tag_name('td')
    #写入表的内容到sheet 1中，第r行第c列
    for c,td in enumerate(table_td_list):
        sheet.write(r, c, td.text)
#保存表格到已有的 excel
wbk.save(r'C:\xxx\test.xls')

4、全部代码：

#coding:utf-8

from selenium import webdriver
import time
import xlwt


driver = webdriver.Chrome()
driver.get("http://xxxx/")
time.sleep(2)


#登陆研究生系统
driver.find_element_by_name("userName").send_keys("xxx")
driver.find_element_by_name("password").send_keys("xxx")
time.sleep(2)
driver.find_element_by_xpath("html/body/div[2]/div[1]/form/div/dl/dt[3]/input[3]").click()
time.sleep(2)
driver.find_element_by_class_name("img_dl").click()

#跳转到成绩查询按钮的frame
frame1 = driver.find_element_by_name("leftFrame")
driver.switch_to.frame(frame1)
iframe1 = driver.find_element_by_name("zbFrame")
driver.switch_to.frame(iframe1)
time.sleep(3)
#点击成绩查询-学期成绩查询
driver.find_element_by_xpath("html/body/table/tbody/tr/td/div/div/table[4]/tbody/tr/td/a").click()
driver.find_element_by_xpath("html/body/table/tbody/tr/td/div/div/div[4]/table/tbody/tr/td/a").click()

#先回到原来的页面
driver.switch_to.default_content()
#载跳转到查询按钮所在的frame
frame2 = driver.find_element_by_name("mainFrame")
driver.switch_to.frame(frame2)
#点击查询按钮
driver.find_element_by_xpath("//button[@class='button2']").click()

#创建工作簿
wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)
#创建工作表
sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)

def save_Data():
    #table_list=[]
    #row_list=[]
    #表头
    table_top_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/thead/tr").find_elements_by_tag_name('td')
    for c,top in enumerate(table_top_list):
        #row_list.append(top.text)
        sheet.write(0, c, top.text)
    #table_list.append(row_list)

    # 表的内容
    #将表的每一行存在table_tr_list中
    table_tr_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/tbody").find_elements_by_tag_name('tr')
    #每行输出到row_list中,将所有的row_list输入到table_list中
    for r,tr in enumerate(table_tr_list,1):
        #将表的每一行的每一列内容存在table_td_list中
        table_td_list = tr.find_elements_by_tag_name('td')
        #将行列的内容加入到table_list中
        for c,td in enumerate(table_td_list):
            #row_list.append(td.text)
            sheet.write(r, c, td.text)
            #print td.text
        #table_list.append(row_list)
    #最后返回table_list
    #return table_list

save_Data()
#保存该文件，文件必须存在
wbk.save(r'C:\xxx\test.xls')

#先回到原来的页面
driver.switch_to.default_content()
print ('done')

5、遇到的问题：

①本来准备将table的内容保存到table_list[]中，table_list里面再是row_list[]，这样的方式得到的tabel_list就能保存所有的table的值，但是如何提取到excel的表格中，就成了问题，因为excel是用，sheet.write(r,c,'')，这种行列的形式加入数据

所以就直接读取table数据的时候将数据直接写到excel中。

②用for循环，不知道循环到哪一个的问题

通过enumerate进行遍历以及获取遍历时的计数，默认从0开始计数

下面是摘抄的enumerate的用法：http://blog.csdn.net/churximi/article/details/51648388

如果对一个列表，既要遍历索引又要遍历元素时，首先可以这样写：

list1 = ["这", "是", "一个", "测试"]
for i in range (len(list1)):
    print i ,list1[i]
 
 1
2
3

上述方法有些累赘，利用enumerate()会更加直接和优美：

list1 = ["这", "是", "一个", "测试"]
for index, item in enumerate(list1):
    print index, item
>>>
0 这
1 是
2 一个
3 测试
 
 1
2
3
4
5
6
7
8

enumerate还可以接收第二个参数，用于指定索引起始值，如：

list1 = ["这", "是", "一个", "测试"]
for index, item in enumerate(list1, 1):
    print index, item
>>>
1 这
2 是
3 一个
4 测试
 
 1
2
3
4
5
6
7
8

补充

如果要统计文件的行数，可以这样写：

count = len(open(filepath, 'r').readlines())
 
 1

这种方法简单，但是可能比较慢，当文件比较大时甚至不能工作。

可以利用enumerate()：

count = 0
for index, line in enumerate(open(filepath,'r'))： 
    count += 1

6、关于操作excel的文章（python第三方库——xlrd和xlwt操作Excel文件学习）

http://blog.csdn.net/wangkai_123456/article/details/50457284

晓晓星辰

关注

17
点赞
踩
127

收藏

觉得还不错? 一键收藏
7
评论
Selenium学习三——利用Python爬取网页表格数据并存到excel

利用Python爬取网页表格数据并存到excel1、具体要求：读取教务系统上自己的成绩单，并保存到本地的excel中2、技术要求：利用Selenium+Python获取网页，自动登陆并操作到成绩单页面通过xlwt模块，将表格保存到本地excel（其中xlwt模块通过cmd打开命令框，输入pip install xlwt下载）3、主要代码：#创
复制链接

扫一扫