实战：中国大学排名定向爬取

最新推荐文章于 2023-07-18 19:59:22 发布

pickle Rick

最新推荐文章于 2023-07-18 19:59:22 发布

阅读量206

点赞数

分类专栏： Python爬虫文章标签： python html

本文链接：https://blog.csdn.net/weixin_44654458/article/details/105717070

版权

Python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

实战：中国大学排名定向爬取

爬取url：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
爬取思路：
1. 从网络上获取大学排名网页内容
2. 提取网页内容中信息到合适的数据结构 (排名，学校名称，总分)
3. 利用数据结构展示并输出结果

# 导入库
import requests
from bs4 import BeautifulSoup
import bs4

定义获取大学排名的函数:

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

提取网页信息:

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html,'html.parser')
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):#找tr标签
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[2].string])

按格式打印结果：

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    ## chr(12288):中文字符的空格填充
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
    print("Suc" + str(num))

uinfo = []
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
html = getHTMLText(url) 
fillUnivList(uinfo, html)
printUnivList(uinfo, 20)

pickle Rick

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实战：中国大学排名定向爬取

实战：中国大学排名定向爬取爬取url：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html爬取思路：从网络上获取大学排名网页内容提取网页内容中信息到合适的数据结构 (排名，学校名称，总分)利用数据结构展示并输出结果# 导入库import requestsfrom bs4 import BeautifulSoupimp...
复制链接

扫一扫

专栏目录