python爬虫 AttributeError: ‘NoneType’ object has no attribute ‘children’ 错误
嵩天老师的爬虫视频中,爬取最好大学代码运行报错。
源代码中网站地址需修改为:
http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html
注意是http和.com,网站地址有修改。年份2019改不改无所谓。
修改后的代码如下:
#CrawUnivRanking.py
import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ‘’
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, ‘html.parser’)
for tr in soup.find(‘tbody’).children:
if isinstance(tr, bs4.element.Tag):
tds = tr(‘td’)
ulist.append([tds[0].string, tds[1].string, tds[3].string])
def printUnivList(ulist, num):
tplt = ‘{0:10}\t{1:{3}10}\t{2:^10}’
print(tplt.format(‘排名’,‘学校名称’,‘总分’,chr(12288)))
for i in range(num):
u = ulist[i]
print(tplt.format(u[0],u[1],u[2],chr(12288)))
def main():
uinfo = []
url = ‘http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html’
html = getHTMLText(url)
fillUnivList(uinfo, html)
printUnivList(uinfo, 30)
main()
运行结果:
排名 学校名称 总分
1 清华大学 94.6
2 北京大学 76.5
3 浙江大学 72.9
4 上海交通大学 72.1
5 复旦大学 65.6
6 中国科学技术大学 60.9
7 华中科技大学 58.9
7 南京大学 58.9
9 中山大学 58.2
10 哈尔滨工业大学 56.7
11 北京航空航天大学 56.3
12 武汉大学 56.2
13 同济大学 55.7
14 西安交通大学 55.0
15 四川大学 54.4
16 北京理工大学 54.0
17 东南大学 53.6
18 南开大学 52.8
19 天津大学 52.3
20 华南理工大学 52.0
21 中南大学 50.3
22 北京师范大学 49.7
23 山东大学 49.1
23 厦门大学 49.1
25 吉林大学 48.9
26 大连理工大学 48.6
27 电子科技大学 48.4
28 湖南大学 48.1
29 苏州大学 47.3
30 西北工业大学 46.7
能成功运行了。