爬虫初学者。

import requests

from lxml import html

import docx

from docx.shared import Pt



result = ""

resultList = []



# 爬取青书学堂答案

def Crawler_Answer():

    # 目标地址

    url = "https://degree.qingshuxuetang.com/lnsh/Student/ViewExerciseAnswer?courseId=31&exerciseId=622edd58d6018000016ca3b7&teachPlanId=403&periodId=19"

    # 伪装为本地

    header = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36",

        "Cookie": "__environment=production; AccessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1SWQiOjMzNTIxNzMxLCJyb2xlIjoxMDAsImNsaWVudCI6InBjd2ViIiwib3JncyI6WyJ7XCJ0eXBlXCI6XCJkZ1wiLFwicm9sZXNcIjpbMV0sXCJpZFwiOjExNCxcIm91SWRcIjoxMzQ2MX0iXSwiZXhwIjoxNjYzMjM3NzU3LCJqdGkiOiJqd3Q1NTAwOWNiNDU5NDU0YTNlOThhN2NmMmVhZDY0Nzk3MyIsInBsYXRmb3JtIjoicXN4dCJ9.fUsLBHfDgj8IBAVv7w-dP8YyihSv3wImEQK9UMQB9fc"

       

    }

    page = requests.Session().get(url, headers=header)



    tree = html.fromstring(page.text)

    # result = tree.xpath('//h2/text()')

    # 通过循环找到每个题的答案

    # i:题数  xpath网页抓取 /text() 转文字

    for i in range(1, 21):

        result = tree.xpath(

            '//*[@id="form1"]/div['+str(i)+']/div[3]/div/span'+'/text()')

        resultList.append(result)



    '''

    //*[@id="form1"]/div[2]/div[3]/div/p/span

    //*[@id="form1"]/div[3]/div[3]/div/p/span

    //*[@id="form1"]/div[8]/div[3]/div/p[1]/span[1]

    //*[@id="form1"]/div[1]/div[3]/span[2]/div/span

    //*[@id="form1"]/div[40]/div[3]/span[2]/div/span

    //*[@id="form1"]/div[40]/div[3]/span[2]/div/span



    //*[@id="form1"]/div[1]/div[4]/span[2]

    //*[@id="form1"]/div[80]/div[4]/span[2]



    //*[@id="form1"]/div[1]/div[3]/div/span

    //*[@id="form1"]/div[20]/div[3]/div/span

    document.querySelector("#app > div > div.pdf-container > span > canvas")

    '''

    # print(result)



# 将答案写入doc

def writeDocx():

    file = docx.Document()

    i = 0

    while i < len(resultList):

        file.add_paragraph(resultList[i]).space_after = Pt(30)

        i = i + 1



    file.save(f"E:\QSXTAnswer\QSXTAnswer.docx")

    print("success")




Crawler_Answer()

writeDocx()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值