#python#爬取中国大学排名2021

本文介绍了使用Python爬虫抓取2021年中国大学排名的过程,包括确定目标、解析网页和展示结果。通过解析网页源码,找到并提取排名、大学名称、省市、类型、总分和办学层次等信息。
摘要由CSDN通过智能技术生成

  本文初衷仅作为学习交流,因为我在刚开始学的时候什么东西都爬不出来,艰苦摸索过一段时间,希望这篇文章可以给爬虫入门的小伙伴一点帮助
  看见有些小伙伴问我为什么爬取不到信息,是因为我这篇博客是2020年写的,如今最好大学网也改版啦,想要爬取信息就需要重新解析网页了。
  本文是写于我刚学习python爬虫的时候,自身对爬虫的理解也不太深,所以对博客爬取具体详情也没有细说。源于学习mooc上嵩天老师的爬取大学排名,练习网址为最好大学网

一、确定目标

  希望写出一个小爬虫获取信息,首先需要确定的是自己希望爬取的内容在上面地方。进入网站可看见如下页面
在这里插入图片描述
  我确定的目标是中国大学排名,点击进入查看
在这里插入图片描述

二、解析网页

  已经进入了目标页面,按f12键查看网页源码,具体如下。
在这里插入图片描述
  前期的准备工作就已经完成了,接下来我们需要先尝试的爬一下,测试网页有什么反爬机制,代码如下。

import requests
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except
  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值