基于python的爬虫实战(VS2017进行项目编辑)

基于python的爬虫实战

近几天学习爬虫,感觉自己的水平可以爬出不少数据,萌生了实战的想法,后来发现自己还是太嫩了

老规矩,代码运行效果和保存文件效果:传送门
项目代码效果文件整合包:传送门

  • 作为一个深度电影爱好者,我肯定首先考虑爬取电影天堂的最新电影资讯啦,可是经过我的实际操作发现那个网站不和我交互,报错
    -<urlopen error EOF occurred in violation of protocol (_ssl.c:841)>
    -emmm,行,所以操作无果之后就放弃了,如果有人能解决希望能私信我

  • 第二个选择网抑云,毕竟自古评论出网易,我发现网易云里面是类似函数解码的东西,并且再重新获取数据的时候网页不刷新,海量代码劝退。。。

  • 第三条就选择了比较简单一点糗事百科啦,它里面的排行榜是实时变化的,并且中间数量显示也可能会有一点变化,可能维护不好吧。。糗事百科 传送门

本程序分为三个模块
第一个是获取网页函数:
head头伪装的是谷歌浏览器,由图上可以看出解码方式应该使用utf-8
由图上可以看出解码方式应该使用 utf -8 模式

def geturl(qsbk):
    head={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
    request=urllib.request.Request(qsbk,headers=head)
    response=urllib.request.urlopen(request)
    html=response.read().decode("utf-8")
    #print(html)
    
    return html

第二个模块是注释得到数据模块

  • 首先规范正则提取规则
    在这里插入图片描述
    在标题的提取中发现只有标题是文本类型,于是使用[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]
    来规范汉字,余下的“好笑”等字符处理在函数中
    在这里插入图片描述
    好笑值的评估中直接用re库compile然后findall精准匹配即可
    在这里插入图片描述
    在用户发布名中多看几个不难发现alt后规范的才是没有缩减后的用户名,而下面文本recmd-name中的文本过长之后会用省略号省略一部分名称,显然不符合我们的要求
    具体规范如下:
findtitle=re.compile(r'[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]+',re.S)
tit=re.compile(r'(.*?)好笑')
findhxz=re.compile(r"<span>(.*?)</span><span>好笑")
findwriter=re.compile(r'alt="(.*?)"')

获取信息的函数如下:

def getmusic(qsbk):
    datalist=[]
    for i in range(1,14):
        qsbk1=qsbk+str(i)
        html=geturl(qsbk1)

        soup=bs4.BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="recmd-right"):
            #print(item)
            data=[]
            item=str(item)
            #找到标题
            title=re.findall(findtitle,item)
            title1=re.findall(tit,''.join(title))            
            #print(title1)
            data.append(title1)
            #找到好笑值
            hxz=re.findall(findhxz,item)
            hxz1='好笑值:'+str(hxz)
            #print(hxz1)
            data.append(hxz1)
            #找到作者
            writer=re.findall(findwriter,item)
            #print(writer)
            data.append(writer)

            datalist.append(data)
    return datalist

为了方便处理,跑出来的结果用excel保存,便于以后的处理
规定好datalist中的类数并计算总共需要爬取的数据范围大小(可用表达式表示),要与获得的页面数相匹配,具体需要多少数据可以根据自己的情况自我调整
保存函数如下:

def savedata(datalist,savepath):
    print('------------------开始保存------------------')
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  #创建workbook对象
    sheet = book.add_sheet('糗事百科',cell_overwrite_ok=True)    #创建工作表
    col = ("糗事标题","好笑值","发布作者")
    for i in range(0,3):
        sheet.write(0,i,col[i])                                 #列名
    for i in range(0,181):
        print("第%d条" %(i+1))
        data = datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])                          #数据
    book.save(savepath)

全部代码预览:

#-*- codeing = utf-8 -*-
#@Time : 2020/8/14 
#@Author : A_kang
#@File : demo.py
#@Software: VS2017

import urllib.request
import bs4
import re
import xlwt
import json


def main():
    qsbk="https://www.qiushibaike.com/8hr/page/"
    datalist=getmusic(qsbk)
    savepath="糗事百科前13页.xls"
    savedata(datalist,savepath)

findtitle=re.compile(r'[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]+',re.S)
tit=re.compile(r'(.*?)好笑')
findhxz=re.compile(r"<span>(.*?)</span><span>好笑")
findwriter=re.compile(r'alt="(.*?)"')

def geturl(qsbk):
    head={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
    request=urllib.request.Request(qsbk,headers=head)
    response=urllib.request.urlopen(request)
    html=response.read().decode("utf-8")
    #print(html)

    return html
def getmusic(qsbk):
    datalist=[]
    for i in range(1,14):
        qsbk1=qsbk+str(i)
        html=geturl(qsbk1)

        soup=bs4.BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="recmd-right"):
            #print(item)
            data=[]
            item=str(item)
            #找到标题
            title=re.findall(findtitle,item)
            title1=re.findall(tit,''.join(title))            
            #print(title1)
            data.append(title1)
            #找到好笑值
            hxz=re.findall(findhxz,item)
            hxz1='好笑值:'+str(hxz)
            #print(hxz1)
            data.append(hxz1)
            #找到作者
            writer=re.findall(findwriter,item)
            #print(writer)
            data.append(writer)

            datalist.append(data)
    return datalist

def savedata(datalist,savepath):
    print('------------------开始保存------------------')
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  #创建workbook对象
    sheet = book.add_sheet('糗事百科',cell_overwrite_ok=True)    #创建工作表
    col = ("糗事标题","好笑值","发布作者")
    for i in range(0,3):
        sheet.write(0,i,col[i])                                 #列名
    for i in range(0,181):
        print("第%d条" %(i+1))
        data = datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])                          #数据
    book.save(savepath)

if __name__=="__main__":
    main()
    print("爬取完毕!你成功了!")
“你是谁?”

“一个看帖子的人。”

“看帖子不点赞啊?”

“你点赞吗?”

“当然点了。”

“我也会点。”

“谁会把经验写在帖子里。”

“写在帖子里的那能叫经验贴?”

“上流!”

                                                        cheer!!!

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大不怪将军

如果帮助到你,我很开心

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值