get案例爬取百度贴吧

最新推荐文章于 2024-10-16 17:48:16 发布

YYQQ867

最新推荐文章于 2024-10-16 17:48:16 发布

阅读量126

点赞数

分类专栏： get案例文章标签： python html

本文链接：https://blog.csdn.net/weixin_55676967/article/details/114278994

版权

get案例专栏收录该内容

1 篇文章 0 订阅

订阅专栏

get案例

需求爬取贴吧的数据

1.输入爬取贴吧的主题（列如火影忍者）
2. 输入起始页和终止页（列如 3- 5）
3. 把每一页的数据保存到本地（列如第一页.html 第二页.html）

思路

https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=0        第一页
https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=50      第二页
https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=100    第三页
https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=150    第四页
pn = (page -1) * 50
发起请求  ---->  数据
保存数据

```python
import urllib.request
import urllib.parse

#贴吧的主题
name = input('请输入贴吧的名称：')
begin = int(input('请输入起始页：'))
end = int (input('请输入终止页：'))

headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
}

#对name进行处理
kw = {'kw': name}
result = urllib.parse.urlencode(kw)
#1 2 3 pn 0 50 150
for i in range(begin,end+1):
	pn = (i - 1) * 50
	#print(pn)
	#拼接url地址 https://tieba.baidu.com/f?kw=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85&&pn=0
	base_url = 'https://tieba.baidu.com/f?'
	url = base_url + result + '&pn=' + str(pn)
	#print(url)
	#发起请求
	req = urllib.request.Request(url,headers=headers)
	res = urllib.request.urlopen(req)
	html = res.read().decode('utf-8')
	#保存数据
	filename = '第' + str(i) + '页.html'
	with open(filename,'w', encoding='utf-8') as f:
		f.write(html)

#大家好我是技术小白，一直都在努力的路上，一直的期望是有大神带着我飞起来！！！！