使用selenium登录网站并爬取数据保存到excel

使用selenium模拟登录到网站后,利用requests爬取数据,用bs4解析数据,用xlwt保存到excel。

自定义了2个函数:getData()用于获取数据,使用for循环获取多个页面的数据,解析后的数据保存到列表中;saveData(datalist, savepath)用于保存数据,参数datalist是保存的数据,参数savepath是保存的路径,写入数据时使用了双重循环。

from selenium import webdriver
import time
import requests
from bs4 import BeautifulSoup
import xlwt             # 电子表格操作模块

browser = webdriver.Chrome(r'C:\Users\guo\Desktop\renshe\chromedriver.exe')

headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }

browser.get('https://网址/register/#/login?_k=ax56bx')
browser.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/div[1]/div[2]/form/div[3]/span[2]/input').send_keys('用户名')
browser.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/div[1]/div[2]/form/div[4]/span[2]/input').send_keys(',密码')
time.sleep(1)
browser.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/div[1]/div[2]/form/div[6]/button[1]').click()
time.sleep(1)

def getData():      # 获取数据函数
    datalist = []         # 总的数据列表
    for i in range(1,65):
        url = 'https://网址/ApplyCollegeNew?page='+str(i)
        page_text = requests.get(url=url, headers=headers, timeout=10).text
        # 实例化bs对象,加载页面源码
        soup = BeautifulSoup(page_text, 'lxml')
        # 数据解析,返回列表[]
        li_list = soup.select('#collegesLists > li')
        # 循环列表
        for li in li_list:
            data = []   # 定义列表,用于保存每一行的数据
            title=li.select('.collegeFeature >h3>a')[0].string
            data.append(title)
            detail=li.select('.collegeFeature')[0].text
            data.append(detail)
            datalist.append(data)  # 将每行列表添加到总列表

    return datalist

def saveData(datalist, savepath):
    print('save....')
    book = xlwt.Workbook(encoding='utf-8')
    sheet = book.add_sheet('大学列表', cell_overwrite_ok=True)
    col = ('学校名称', '其他说明')
    # 表头字段名的写入
    for i in range(0, len(col)):            # 元组是不可变的,len取长度
        sheet.write(0, i, col[i])     # 列名
    # 数据记录的写入
    for i in range(0, len(datalist)):       # 使用len(列表)获得长度
        data = datalist[i]
        for j in range(0, len(data)):
            sheet.write(i+1, j, data[j])
    book.save(savepath)
    print('save ok....')

if __name__ == "__main__":
    savepath = '大学数据.xls'
    datalist = getData()
    saveData(datalist, savepath)

 

  • 1
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: VBA是Visual Basic for Applications的简称,是一种用于编写宏和自定义函数的编程语言。在Excel中,可以借助VBA来抓取网页数据并将其存储在Excel中。 首先,在Excel中打开Visual Basic Editor,在“插入”菜单中选择“模块”,新建一个模块。 然后,编写VBA代码来抓取网页数据。首先,使用CreateObject函数创建一个XMLHttpRequest对象,该对象用于发送HTTP请求并获取网页内容。接下来,使用对象的Open方法指定HTTP请求的类型和URL地址。再使用Send方法发送HTTP请求,并通过ResponseText属性获取响应内容,将其保存为字符串。最后,使用Split函数将字符串解析为数组,并将数组中的数据逐行写入Excel。 以下是一个示例的VBA代码,用于抓取某网页的表格数据并将其存储在Excel中: ```VBA Sub 抓取网页数据Excel() Dim xmlhttp As Object Dim html As Object Dim table As Object Dim row As Object Dim col As Object Dim i As Integer, j As Integer '创建XMLHttpRequest对象 Set xmlhttp = CreateObject("MSXML2.XMLHTTP") '发送HTTP请求 xmlhttp.Open "GET", "https://example.com", False xmlhttp.send '将获取的网页内容解析为HTML对象 Set html = CreateObject("htmlfile") html.body.innerHTML = xmlhttp.responseText '定位需要抓取的表格 Set table = html.getElementById("table_id") '逐行逐列抓取表格数据并写入Excel i = 1 For Each row In table.Rows j = 1 For Each col In row.Cells Cells(i, j) = col.innerText j = j + 1 Next col i = i + 1 Next row '释放对象 Set xmlhttp = Nothing Set html = Nothing Set table = Nothing Set row = Nothing Set col = Nothing End Sub ``` 以上代码仅为示例,实际使用时可能需要根据具体的网页结构和要抓取的数据进行修改。通过使用VBA脚本,可以自动抓取网页数据并将其快速整理到Excel中,提高工作效率。 ### 回答2: VBA是一种可以在Excel中编写的宏语言。通过使用VBA,我们可以编写程序来抓取网页数据并将其存储到Excel中。 要实现这个功能,首先需要了解VBA中的一些基本操作,如如何打开一个网页、如何获取网页源代码、如何解析网页内容等等。 当我们想要抓取网页数据时,可以使用VBA中的XMLHTTP对象打开一个网页,然后使用该对象的属性和方法来获取网页的源代码。通过分析源代码,我们可以确定我们所需要的数据在哪个标签中,然后使用VBA中的字符串处理函数来提取数据。 一旦我们获取了所需的数据,我们可以使用VBA中的Excel对象来创建一个新的工作表,并将数据填充到工作表的单元格中。 在编写VBA代码之前,我们需要在Excel中开启开发者选项,并插入一个新的VBA模块。然后,我们可以在模块中编写我们的抓取数据代码。 以下是一个简单的示例代码,演示如何使用VBA抓取网页数据Excel中: ```vba Sub 抓取数据() Dim objHTTP As New XMLHTTP Dim htmlDoc As Object Dim tabelObj As Object Dim dataCell As Object Dim i As Integer '打开网页 objHTTP.Open "GET", "http://example.com", False objHTTP.send '创建HTML文档对象 Set htmlDoc = CreateObject("htmlfile") '将网页源代码加载到HTML文档对象中 htmlDoc.body.innerHTML = objHTTP.responseText '找到目标表格对象 Set tabelObj = htmlDoc.getElementById("table_id") '抓取每个单元格的内容并填充到Excel中 i = 1 For Each dataCell In tabelObj.getElementsByTagName("td") Cells(i, 1).Value = dataCell.innerText i = i + 1 Next dataCell '清理对象 Set objHTTP = Nothing Set htmlDoc = Nothing Set tabelObj = Nothing Set dataCell = Nothing End Sub ``` 以上就是一个简单的例子,演示了如何使用VBA抓取网页数据Excel中。实际使用时,还需要根据具体需求进行相应的调整和优化。 ### 回答3: VBA是一种宏语言,可用于在Excel中自动执行各种任务。它既可以执行Excel内部操作,也可以与外部应用程序进行交互。VBA可以帮助我们抓取网页数据并将其导入到Excel表格中。 要使用VBA抓取网页数据Excel,我们可以按照以下步骤进行操作: 1. 打开Excel,按下Alt + F11打开Visual Basic for Applications编辑器。 2. 在左侧的“项目资源管理器”窗格中,双击“这台工作簿”,然后在右侧的编辑窗格中输入VBA代码。 3. 首先,我们需要添加对“Microsoft Internet Controls”和“Microsoft HTML Object Library”的引用。选择“工具”菜单,然后选择“引用”,在弹出的对话框中勾选上述两个引用。 4. 创建一个新的宏,使用以下代码示例: Sub 抓取网页数据() Dim IE As Object Dim doc As Object Dim table As Object Dim rowNum As Integer ' 创建新的Internet Explorer对象 Set IE = CreateObject("InternetExplorer.Application") ' 打开要抓取数据网页 IE.Navigate "http://www.example.com" ' 等待页面加载完成 Do While IE.Busy Application.Wait DateAdd("s", 1, Now) Loop ' 获取页面的文档对象 Set doc = IE.Document ' 获取要抓取的表格对象 Set table = doc.getElementById("table_id") ' 遍历表格中的行,并将数据导入Excel rowNum = 1 For Each row In table.Rows For cellIndex = 1 To row.Cells.Length Cells(rowNum, cellIndex).Value = row.Cells(cellIndex).innerText Next cellIndex rowNum = rowNum + 1 Next row ' 关闭Internet Explorer对象 IE.Quit ' 释放对象的内存 Set table = Nothing Set doc = Nothing Set IE = Nothing End Sub 以上代码示例中,我们使用了Internet Explorer对象来加载并浏览要抓取数据网页。在完成页面加载后,我们通过获取页面的文档对象,然后使用getElementById方法获取到要抓取的表格对象。接下来,我们遍历表格中的每一行,并将每个单元格的文本值导入到Excel表中。 完成以上步骤后,点击运行按钮(或按下F5)执行VBA代码。程序将自动打开并加载指定网页上的表格数据,并将其导入到Excel中。 希望以上回答对您有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值