成语爬虫源码分享

爬虫之后写入excel文件中

源码分享:

import random
import re
import time
import urllib.request

import xlwt.Workbook


def chengyu(url):
    try:
        pcres=urllib.request.urlopen(url)
        pcres=pcres.read().decode('gbk')
        return pcres
    #异常处理
    except urllib.error.HTTPError as reason:
        print(reason)
    

if __name__ == '__main__':
    zimu=["B","C","D","E","F","G","H","I","J","K","L","M","N","O","P","Q","R","S","T","U","V","W","X","Y","Z"]
    #遍历字母
    for zm in zimu:
        #遍历数字
        rundetail_excel=xlwt.Workbook() 
        for num in range(1,50):
            print(zm+str(num))
            url="http://xxx.com/list/"+zm+"_"+str(num)+".html"
            res=chengyu(url)
            cyall=re.findall(r'<li><a href="/cy(\d+)/(\d+).html">(.+?)</a></li>',str(res))
            sheetname=zm+str(num)
            worksheet=rundetail_excel.add_sheet(sheetname,cell_overwrite_ok=True)
            worksheet.write(0,0,"idiom_name")
            worksheet.write(0,1,"idiom_word1")
            worksheet.write(0,2,"idiom_word2")
            worksheet.write(0,3,"idiom_word3")
            worksheet.write(0,4,"idiom_word4")
            worksheet.write(0,5,"idiom_lack")
            worksheet.write(0,6,"idiom_explan")
            #遍历每个成语
            for cylen in range(len(cyall)):
                print(cyall[cylen])
                time.sleep(1)
                if len(cyall[cylen][2])==4:
                    cypage=cyall[cylen][0]
                    cynum=cyall[cylen][1]
                    cyname=cyall[cylen][2]
                    print(cyname)
                    worksheet.write(cylen+1,0,cyname)
                    if cyname=="白头如新":
                        pass
                    else:
                        jieshiurl="http://xxx.com/cy"+str(cypage)+"/"+str(cynum)+".html"
                        jieres=chengyu(jieshiurl)
                        jieinfo=re.findall('释义</td>\n<td>(.*)</td>',str(jieres))
                        jieinfo=str(jieinfo[0])
                        worksheet.write(cylen+1,6,jieinfo)
                    
                    worksheet.write(cylen+1,1,cyname[0])
                    worksheet.write(cylen+1,2,cyname[1])
                    worksheet.write(cylen+1,3,cyname[2])
                    worksheet.write(cylen+1,4,cyname[3])
                    randlack=[cyname[0],cyname[1],cyname[2],cyname[3]]
                    lackone=random.choice(randlack)
                    worksheet.write(cylen+1,5,lackone)
            rundetail_excel.save(zm+".xlsx")  

新手学python关注不错

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

py编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值