第二章 urllib数据挖掘 2.6贴吧实战

2.6贴吧实战

from urllib import request
#请求网页页面,并返回相关内容
def loadpage(url,filename):
    print("正在下载内容"+filename)
    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763"}
    req= request.Request(url,headers=header)
    response = request.urlopen(req).read()#rea()添加decode()会出错
    return response
#将爬取的数据进行存储
def writepage(html,filename):
    print("正在存储信息")
    with open(filename,"wb") as f:
        f.write(html)
    print(".........")
#理清页数,编写爬虫
def spider(url,beginpage,endpage):#需要爬取的首页与尾页
    for yeshu in range(beginpage,endpage+1):#range取到的最大值是endpage-1
        yema=(yeshu-1)*50#第一页是0
        url = url + str(yema)#贴吧网址
        filename = "第"+ str(yeshu) +"页"#文件名
        html = loadpage(url,filename)
        writepage(html,filename)
        print("下载完成")
if __name__=="__main__":
    url="https://tieba.baidu.com/f?kw=python&ie=utf-8&pn="
    spider(url,4,5)

结果产生了两个网页内容的文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值