- 目标
- 定向爬虫思路
- 代码
- 复习format(优化中英输出排版)
- 附注:Mooc-python网络爬虫与信息提取
- 目的
从最好大学网,获取:大学排名、名称、总分
- 思路:定向爬虫
- 获取大学排名 – getHtmlText()
- 提取网页内容至合适结构 – fillUnivList()
- 展示 – printUnivList()
- 代码
# -*- coding: utf-8 -*-
'''
从最好大学网,获取:大学排名、名称、总分
1.获取网页
2.解析网面
3.输入
- 查询网站robots公告,发现无公告,默认随意爬
- 编程提取前30名
- 查看网页源码
-
'''
from bs4 import BeautifulSoup
import requests, bs4
class spider(object):
def __init__(self):
self.url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
self.__ulist = []
def getHtmlText(self):
try:
req = requests.get(self.url)
req.raise_for_status()
re