Python爬取百度贴吧

Kpendra

于 2023-09-04 20:27:44 发布

阅读量374

点赞数

文章标签： python 开发语言正则表达式网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63510164/article/details/132676990

版权

可以爬取任意贴吧，自定义任意页数并且保存页面。主要用到了request模块和quote。


from urllib.request import Request,urlopen
from urllib.parse import quote

def get_html(url):
    headers = {
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69"
    }
    requests = Request(url,headers=headers)
    response = urlopen(requests)
    return response.read().decode()

def save_html(html,filename):
    with open(filename,'w',encoding='utf-8') as f:
        f.write(html)

def main():

    content = input("请输入要获取哪个贴吧：")
    n = int(input("请输入要爬取多少页："))
    for i in range(n):
        url = "https://tieba.baidu.com/f?kw=" + quote(content) + "&ie=utf-8&pn={}".format(i*50)
        print(url)
        html = get_html(url)
        filename = "第" + str(i+1) + "页.html"
        save_html(html,filename)

if __name__ == '__main__':
    main()

博客等级

码龄4年

11
原创

6
点赞

23
收藏

5
粉丝

关注

私信

热门文章

最新评论

Python爬取百度贴吧
Kpendra: 破解验证码觉得麻烦的话用第三方
Python爬取百度贴吧
无敌滴坤坤: 为什么我复制试了试出现的全都是百度安全验证，请问怎么解决呢？
Python爬取百度贴吧
CSDN-Ada助手: 恭喜您写了第11篇博客！标题为“Python爬取百度贴吧”，这篇博客听起来非常有趣和实用。我想对您的持续创作表示祝贺，您的努力和热情确实值得赞赏。在下一步的创作中，我建议您可以考虑分享一些有关数据分析或者数据可视化方面的内容，因为这是Python爬虫的一个重要应用领域，也是许多读者感兴趣的话题。当然，这只是一个初步的建议，您可以根据自己的兴趣和专业知识进行选择。谦虚的态度是每个创作者都应该具备的品质，我相信您会继续努力提升自己的写作技巧和内容质量。希望您能坚持下去，为我们带来更多有价值的博客！
python的django框架实现数据库链接与数据库基本操作
CSDN-Ada助手: 恭喜您写了这么一篇有价值的博客，介绍了Python的Django框架实现数据库链接与数据库基本操作，让读者更好地理解了这方面的知识。接下来，建议您可以深入探究Django框架的其他功能，例如模板引擎、表单验证等等，以便更全面地掌握这个框架。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
python通过re模块，实现正则表达式基本功能
CSDN-Ada助手: 恭喜您写出了第7篇博客，文章内容也非常实用。通过re模块实现正则表达式的基本功能确实是Python学习中不可或缺的一步，您的分享对于初学者来说非常有帮助。希望您能继续创作，分享更多Python编程的经验和技巧。下一步的创作建议可以考虑介绍Python在数据分析、机器学习等领域的应用，这也是很多读者比较感兴趣的话题。期待您的新作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。