数据采集之爬取2019最好大学网站前四列排名 保存为csv文件格式 简单案例 BeautifulSoup
目录:
第一步 观察网页
第二步 使用requests、 BeautifulSoup解析数据
第三步 代码呈现结果
开始:
第一步 观察网页
第二步 使用request、 BeautifulSoup解析数据
...
导入包
....
import requests #第三方下载器
from bs4 import BeautifulSoup
import csv
...
定位抓取
...
url='http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
re=requests.get(url,{'User-Agent': 'Mozilla/5.0'})
re.encoding='utf8'
soup=BeautifulSoup(re.text,'lxml')
list=[]
for tbody in soup ('tbody'):
for tr in tbody ('tr'):
td=tr('td')
list.append([td[0].string+','+td[1].string+','+td[2].string+','+td[3].string])
...
保存csv文件
...
with open('C:/Users/17792/Desktop/最好大学排名.csv','w',encoding='GBK',newline="") as file:
head=['排名','学校名称','省份','总分']
write=csv.writer(file)
write.writerow(head)
for i in list:
for j in i :
write.writerow(j.split(','))
第三步 代码呈现结果
结果: