一、功能描述
功能:中国大学排名定向排名爬取。
展示:以简单表格的形式输出大学排名结果,包括排名、大学名称、地点、总得分。
定向URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。
二、源代码
#coding=utf-8
'''
Created on 2017年10月25日
@author: zxt
'''
import requests
from bs4 import BeautifulSoup
import bs4;
# 从网络上获取大学排名网页内容
def getHtmlText(url):
try:
r = requests.get(url, timeout = 30);
r.raise_for_status();
r.encoding = r.apparent_encoding;
return r.text;
except:
return "";
# 提取网页内容中信息到合适的数据结构
def fillUniversityList(ulist, html):
soup = BeautifulSoup(html, "html.parser");
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td');
ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string]);
# 利用数据结构展示并输出结果
def printUniversityList(ulist, num):