2021-04-24

最新推荐文章于 2024-07-27 12:20:46 发布

青春誓言无悔

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量122

点赞数

分类专栏： Python 爬虫 urllib库文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_52625947/article/details/116078676

版权

Python 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

urllib库

1 篇文章 0 订阅

订阅专栏

爬虫之翻页处理

以百度贴吧爬取翻页

大致思路：找几个url，删除对url没有影响的参数，并分析网址的变化，找出规律
上代码：分析过程及思路都在代码块里了

from urllib import request
from urllib import parse
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
}
#分析url——翻页处理
# 1.第一页https://tieba.baidu.com/f?ie=utf-8&kw=%E7%AF%AE%E7%90%83&fr=search
# 2.第二页https://tieba.baidu.com/f?kw=%E7%AF%AE%E7%90%83&ie=utf-8&pn=50
# 3.第三页https://tieba.baidu.com/f?kw=%E7%AF%AE%E7%90%83&ie=utf-8&pn=100
# 4.第四页https://tieba.baidu.com/f?kw=%E7%AF%AE%E7%90%83&ie=utf-8&pn=150
#分析：保存一致的，去掉少量不一致参数并测试，发现网页不变即可说明参数可省，如第三页中的&ie=utf-8可省
#https://tieba.baidu.com/f?kw=%E7%AF%AE%E7%90%83&pn=100，pn会变，kw后值为搜索内容
#找规律，pn值是0,50,100,150

#首先要对搜索内容进行编码
name=input('请输入搜索内容：')
kw={'kw':name}
code_name=parse.urlencode(kw)
#输入起止页，并注意后者要加一，因为取不到
begin=int(input('请输入起始页：'))
end=int(input('请输入终止页：'))
for i in range(begin,end+1):
    pn=(i-1)*50
    url='https://tieba.baidu.com/f?'+code_name+'&pn='+str(pn)
    res=request.Request(url,headers=headers)
    req=request.urlopen(res)
    html=req.read().decode('utf-8')
    with open(r'百度贴吧成果\%s贴%d.html'%(name,i),'w',encoding='utf-8')as file:
        print('正在爬取第'+str(i)+'页')
        file.write(html)

青春誓言无悔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-04-24

爬虫之翻页处理以百度贴吧爬取翻页大致思路：找几个url，删除对url没有影响的参数，并分析网址的变化，找出规律上代码：分析过程及思路都在代码块里了from urllib import requestfrom urllib import parseheaders={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82
复制链接

扫一扫

专栏目录