python 爬取某乎某选全部内容

最新推荐文章于 2025-02-01 00:49:47 发布

路笑笑

最新推荐文章于 2025-02-01 00:49:47 发布

阅读量4.8k

点赞数 3

本文链接：https://blog.csdn.net/yujia123321/article/details/115274559

版权

本文介绍了如何使用Python爬取知乎盐选文章的全部内容，包括发现并解析下一页链接的方法。作者通过分析网页源代码，找到隐藏在textarea中的next_section，利用正则表达式匹配获取跳转链接。文章最后提供了多个网站的sitemap链接作为参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。

在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。

不过思来想去还是发出来吧，毕竟要不哪天就忘了。

from DecryptLogin import login
from bs4 import BeautifulSoup
import re
import base64
lg = login.Login()
_, loginstauts = lg.zhihu(username='', password='', mode='pc')
headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"
}
url1 = "https://www.zhihu.com/market/paid_column/1178733193687175168/section/1178742737682350080"
url2 = "https://www.zhihu.com/market/paid_column/1178733193687175168/section/1178742849583083520"
# 获取链接
r = loginstauts.get(url1, headers=headers)
wenzi = r.text
soup = BeautifulSoup(wenzi, 'lxml')
lianjie = soup.textarea
lianjie = str(lianjie)
pattern = re.compile('