Python爬虫4/21:改变header,os,找规律连续爬取

1.将r.requests.headers中的’User-Agent’: ‘python-requests/2.25.1’,
变为’user-agent’: ‘Mozilla/5.0’

# kv = key&value 键值对
kv = {'user-agent': 'Mozilla/5.0'}
url = ''
# 通过headers字段让代码模拟浏览器
r = requests.get(url, headers=kv)
  1. wb:二进制写入模式,图片
  2. os.path.exists(路径、文件等)
    os.path模块主要用于文件的属性获取,exists是“存在”的意思,所以顾名思义,os.path.exists()就是判断括号里的文件是否存在的意思,括号内的可以是文件路径。

3.通过寻找输入规律,改变url,进而爬取不同批次\ip地址\搜索关键词 的链接,再进行后续操作。

b = ['42435167', '42435803']
for i in b:
    url = f'https://bbs.hupu.com/{i}.html'
a = input('输入号码')
url = f'https://bbs.hupu.com/{a}.html'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这里介绍一种基于 Python爬取 https://www.gaokao.cn/school 网站的方法。 首先,我们需要导入 `requests` 和 `beautifulsoup4` 这两个库,前者用于向网站发送请求,后者用于解析网页内容。 ```python import requests from bs4 import BeautifulSoup ``` 然后,我们定义一个函数来爬取学校信息,传入的参数是学校的 ID,例如清华大学的 ID 为 413: ```python def get_school_info(school_id): # 构造 URL url = f'https://www.gaokao.cn/school/{school_id}/' # 发送 GET 请求 response = requests.get(url) # 解析 HTML soup = BeautifulSoup(response.content, 'html.parser') # 提取学校信息 school_name = soup.find('div', class_='school-name').text.strip() school_type = soup.find('div', class_='school-type').text.strip() school_province = soup.find('div', class_='school-province').text.strip() school_address = soup.find('div', class_='school-address').text.strip() school_website = soup.find('a', class_='school-website')['href'] # 返回学校信息 return { 'name': school_name, 'type': school_type, 'province': school_province, 'address': school_address, 'website': school_website, } ``` 接下来,我们可以调用这个函数来获取学校信息了。例如,获取清华大学的信息: ```python school_id = 413 school_info = get_school_info(school_id) print(school_info) ``` 输出结果为: ``` {'name': '清华大学', 'type': '综合类', 'province': '北京市', 'address': '北京市海淀区双清路30号', 'website': 'http://www.tsinghua.edu.cn'} ``` 以上就是基于 Python爬取 https://www.gaokao.cn/school 网站的方法。需要注意的是,爬取网站需要遵守网站的爬虫协议和法律法规,不得进行非法爬取

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值