基于python的爬虫实战（VS2017进行项目编辑）

最新推荐文章于 2024-07-16 15:49:34 发布

大不怪将军

最新推荐文章于 2024-07-16 15:49:34 发布

阅读量451

点赞数 1

分类专栏： python 文章标签：数据挖掘深度学习 python

本文链接：https://blog.csdn.net/weixin_44978992/article/details/108002991

版权

python 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

基于python的爬虫实战

近几天学习爬虫，感觉自己的水平可以爬出不少数据，萌生了实战的想法，后来发现自己还是太嫩了

老规矩，代码运行效果和保存文件效果：传送门
项目代码效果文件整合包：传送门

作为一个深度电影爱好者，我肯定首先考虑爬取电影天堂的最新电影资讯啦，可是经过我的实际操作发现那个网站不和我交互，报错
-<urlopen error EOF occurred in violation of protocol (_ssl.c:841)>
-emmm，行，所以操作无果之后就放弃了，如果有人能解决希望能私信我
第二个选择网抑云，毕竟自古评论出网易，我发现网易云里面是类似函数解码的东西，并且再重新获取数据的时候网页不刷新，海量代码劝退。。。
第三条就选择了比较简单一点糗事百科啦，它里面的排行榜是实时变化的，并且中间数量显示也可能会有一点变化，可能维护不好吧。。糗事百科传送门

本程序分为三个模块
第一个是获取网页函数：
head头伪装的是谷歌浏览器，由图上可以看出解码方式应该使用utf-8
由图上可以看出解码方式应该使用 utf -8 模式

def geturl(qsbk):
    head={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
    request=urllib.request.Request(qsbk,headers=head)
    response=urllib.request.urlopen(request)
    html=response.read().decode("utf-8")
    #print(html)
    
    return html

第二个模块是注释得到数据模块

首先规范正则提取规则

在标题的提取中发现只有标题是文本类型，于是使用[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]
来规范汉字，余下的“好笑”等字符处理在函数中

好笑值的评估中直接用re库compile然后findall精准匹配即可

在用户发布名中多看几个不难发现alt后规范的才是没有缩减后的用户名，而下面文本recmd-name中的文本过长之后会用省略号省略一部分名称，显然不符合我们的要求
具体规范如下：

findtitle=re.compile(r'[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]+',re.S)
tit=re.compile(r'(.*?)好笑')
findhxz=re.compile(r"<span>(.*?)</span><span>好笑")
findwriter=re.compile(r'alt="(.*?)"')

获取信息的函数如下：

def getmusic(qsbk):
    datalist=[]
    for i in range(1,14):
        qsbk1=qsbk+str(i)
        html=geturl(qsbk1)

        soup=bs4.BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="recmd-right"):
            #print(item)
            data=[]
            item=str(item)
            #找到标题
            title=re.findall(findtitle,item)
            title1=re.findall(tit,''.join(title))            
            #print(title1)
            data.append(title1)
            #找到好笑值
            hxz=re.findall(findhxz,item)
            hxz1='好笑值：'+str(hxz)
            #print(hxz1)
            data.append(hxz1)
            #找到作者
            writer=re.findall(findwriter,item)
            #print(writer)
            data.append(writer)

            datalist.append(data)
    return datalist

为了方便处理，跑出来的结果用excel保存，便于以后的处理
规定好datalist中的类数并计算总共需要爬取的数据范围大小（可用表达式表示），要与获得的页面数相匹配，具体需要多少数据可以根据自己的情况自我调整
保存函数如下：

def savedata(datalist,savepath):
    print('------------------开始保存------------------')
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  #创建workbook对象
    sheet = book.add_sheet('糗事百科',cell_overwrite_ok=True)    #创建工作表
    col = ("糗事标题","好笑值","发布作者")
    for i in range(0,3):
        sheet.write(0,i,col[i])                                 #列名
    for i in range(0,181):
        print("第%d条" %(i+1))
        data = datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])                          #数据
    book.save(savepath)

全部代码预览：

#-*- codeing = utf-8 -*-
#@Time : 2020/8/14 
#@Author : A_kang
#@File : demo.py
#@Software: VS2017

import urllib.request
import bs4
import re
import xlwt
import json


def main():
    qsbk="https://www.qiushibaike.com/8hr/page/"
    datalist=getmusic(qsbk)
    savepath="糗事百科前13页.xls"
    savedata(datalist,savepath)

findtitle=re.compile(r'[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]+',re.S)
tit=re.compile(r'(.*?)好笑')
findhxz=re.compile(r"<span>(.*?)</span><span>好笑")
findwriter=re.compile(r'alt="(.*?)"')

def geturl(qsbk):
    head={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
    request=urllib.request.Request(qsbk,headers=head)
    response=urllib.request.urlopen(request)
    html=response.read().decode("utf-8")
    #print(html)

    return html
def getmusic(qsbk):
    datalist=[]
    for i in range(1,14):
        qsbk1=qsbk+str(i)
        html=geturl(qsbk1)

        soup=bs4.BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="recmd-right"):
            #print(item)
            data=[]
            item=str(item)
            #找到标题
            title=re.findall(findtitle,item)
            title1=re.findall(tit,''.join(title))            
            #print(title1)
            data.append(title1)
            #找到好笑值
            hxz=re.findall(findhxz,item)
            hxz1='好笑值：'+str(hxz)
            #print(hxz1)
            data.append(hxz1)
            #找到作者
            writer=re.findall(findwriter,item)
            #print(writer)
            data.append(writer)

            datalist.append(data)
    return datalist

def savedata(datalist,savepath):
    print('------------------开始保存------------------')
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  #创建workbook对象
    sheet = book.add_sheet('糗事百科',cell_overwrite_ok=True)    #创建工作表
    col = ("糗事标题","好笑值","发布作者")
    for i in range(0,3):
        sheet.write(0,i,col[i])                                 #列名
    for i in range(0,181):
        print("第%d条" %(i+1))
        data = datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])                          #数据
    book.save(savepath)

if __name__=="__main__":
    main()
    print("爬取完毕！你成功了！")

“你是谁？”

“一个看帖子的人。”

“看帖子不点赞啊？”

“你点赞吗？”

“当然点了。”

“我也会点。”

“谁会把经验写在帖子里。”

“写在帖子里的那能叫经验贴？”

“上流！”

                                                        cheer！！！

在这里插入图片描述

大不怪将军

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
基于python的爬虫实战（VS2017进行项目编辑）

基于python的爬虫实战近几天学习爬虫，感觉自己的水平可以爬出不少数据，萌生了实战的想法，后来发现自己还是太嫩了老规矩，代码运行效果和保存文件效果：传送门项目代码效果文件整合包：传送门作为一个深度电影爱好者，我肯定首先考虑爬取电影天堂的最新电影资讯啦，可是经过我的实际操作发现那个网站不和我交互，报错-<urlopen error EOF occurred in violation of protocol (_ssl.c:841)>-emmm，行，所以操作无果之后就放弃了，如果有
复制链接

扫一扫