python爬虫练习之用urllib模块来爬取百度贴吧指定内容指定页面的全网页内容，（版本1）

最新推荐文章于 2024-05-02 21:47:38 发布

码农一号已就位

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量7.9k

点赞数 5

分类专栏： python 论坛爬虫数据挖掘文章标签： python 数据挖掘爬虫论坛爬取爬虫练习

本文链接：https://blog.csdn.net/xdc1812547560/article/details/108013490

版权

本文介绍了如何使用Python的urllib模块爬取百度贴吧特定内容页面的完整网页，并将其保存为.html文件。通过分析链接参数，设置请求头，编码链接并发起请求，最后将网页内容保存到本地。详细步骤包括解析链接、构造请求头、拼接URL、文件命名及内容存储。

摘要由CSDN通过智能技术生成

目标：

用urllib模块实现
根据搜索来获取指定贴吧内容网页，然后以’.html’格式直接保存网页，

可参考：

https://blog.csdn.net/xdc1812547560/article/details/107989273

计划

首先，引入模块，然后分步来完成
分三步：
1、分析百度网页链接来通过改变链接中的参数来获取指定页面
2、获取网页内容
3、保存

第一步

首先分析链接得出页面的变化与参数pn=‘？’有关

import urllib.request
import urllib.parse
import random

#1、分析百度贴吧网页链接
#第一页
#https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0
#第二页
#https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=50
#第三页
# https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=100
#从网页链接分析来看，我们发现当pn=?改变时页面会改变，页数的规律 pn = (当前页数 - 1)*50

第二步

请求头

然后获取网页内容
首先设置请求头，这里使用两个User-Agent来随机交替使用

#2、获取网页内容
#因为可能爬取的页面过多，所以用多个user-agent来随机请求网页
headers_list = [{
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'},{
   'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'}]
headers = random.choice(headers_list)

url拼接与请求

获取所需

获取需要爬取的贴吧名与开始页数，结束页数

# 获取搜索
sousuo = input('您要爬取的贴吧的贴吧名：')
# 开始页数
start_page = int(input('需要爬取的开始页数：'))
# 结束页数
end_pag

最低0.47元/天解锁文章

码农一号已就位

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录