1.将r.requests.headers中的’User-Agent’: ‘python-requests/2.25.1’,
变为’user-agent’: ‘Mozilla/5.0’
# kv = key&value 键值对
kv = {'user-agent': 'Mozilla/5.0'}
url = ''
# 通过headers字段让代码模拟浏览器
r = requests.get(url, headers=kv)
- wb:二进制写入模式,图片
- os.path.exists(路径、文件等)
os.path模块主要用于文件的属性获取,exists是“存在”的意思,所以顾名思义,os.path.exists()就是判断括号里的文件是否存在的意思,括号内的可以是文件路径。
3.通过寻找输入规律,改变url,进而爬取不同批次\ip地址\搜索关键词 的链接,再进行后续操作。
b = ['42435167', '42435803']
for i in b:
url = f'https://bbs.hupu.com/{i}.html'
a = input('输入号码')
url = f'https://bbs.hupu.com/{a}.html'