数据采集之爬取2019最好大学网站前四列排名保存为csv文件格式简单案例 BeautifulSoup

最新推荐文章于 2022-11-30 19:52:27 发布

July-two

最新推荐文章于 2022-11-30 19:52:27 发布

阅读量426

点赞数 2

分类专栏：数据采集

本文链接：https://blog.csdn.net/weixin_43999099/article/details/103245962

版权

数据采集专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据采集之爬取2019最好大学网站前四列排名保存为csv文件格式简单案例 BeautifulSoup

...
导入包
....
import requests  #第三方下载器
from bs4 import BeautifulSoup
import csv
...
定位抓取
...
url='http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
re=requests.get(url,{'User-Agent': 'Mozilla/5.0'})
re.encoding='utf8'
soup=BeautifulSoup(re.text,'lxml')
list=[]
for tbody in soup ('tbody'):
    for tr in tbody ('tr'):
        td=tr('td')
        list.append([td[0].string+','+td[1].string+','+td[2].string+','+td[3].string])
...
保存csv文件

...
with open('C:/Users/17792/Desktop/最好大学排名.csv','w',encoding='GBK',newline="") as file:
    head=['排名','学校名称','省份','总分']
    write=csv.writer(file)
    write.writerow(head)
    for i in list:
        for j in i :
           write.writerow(j.split(','))