实战--用BeautifulSoup提取数据--中国大学排名

最新推荐文章于 2020-04-20 16:17:33 发布

Java川

最新推荐文章于 2020-04-20 16:17:33 发布

阅读量252

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_43919632/article/details/89575865

版权

python 专栏收录该内容

39 篇文章 0 订阅

订阅专栏

import requests
from bs4  import BeautifulSoup  #将html文档变成更具有结构性的dom树，便于解析，提取数据


#获取html界面
def GetHtmlText(url):   
  try:
      r=requests.get(url)
      r.encoding=r.apparent_encoding
      return r.text
  except:
      return "网页获取失败"

def FillUnivList(ulist,html):
  soup=BeautifulSoup(html,'html.parser')
  for tr in soup.find('tbody').children: #遍历tbody内的所有tr标签
    if isinstance(tr,bs4.element.Tag):  #将非tr标签部分过滤掉，而将tr标签作进一步处理
      tds=tr('td')         #将所有tr标签内的td标签做查询并放入ulist列表
      ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
  #将tds的前四个td标签 （我们需要的数据），放入ulist列表


def PrintUnivList(ulist,num):
  tplt="{0:^10}\t{1:{4}^10}\t{2:<10}\t{3:<15}"
  print(tplt.format('排名','学校名称','省市','分数',chr(12288))+'\n'+'\n') #参考format用法
  for i in range(num):    #遍历num个大学信息 并将num个大学信息输出
      u=ulist[i]   
      print(tplt.format(str(u[0]),str(u[1]),str(u[2]),str(u[3]),chr(12288))) 
  return u
"""
def SaveUnivList(u):
  r=print("{:^10}\t{:<10}\t{:<20}\{:<30}".format(u[0],u[1],u[2],u[3])) 
  with open(''大学排名.txt，'wb') as f:
    if f.write(r.text):
       f.close()
       print('保存成功')
    else:
       print('保存失败')
"""
    
  
def main():
  uinfo=[]  #每一个大学的信息放到一个列表中
  url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
  #爬前200名
  num=200
  
  html=GetHtmlText(url)
  FillUnivList(uinfo,html)
  PrintUnivList(uinfo,num)
  #SaveUnivList(l)

if __name__=="__main__":
  main()

值得注意的是：
#format 中英文格式混合输出对不齐的问题解决方法：
‘’’
问题一：{4}为什么是4
tplt="{0:10}\t{1:{4}10}\t{2:<10}\t{3:<30}" 其中{4}代表的是chr(12288)中文空格，在第5个位置，索引是0开始，所以是4

问题二:为什么{4}放在第二个位置？
因为学校名称那里会对不齐需要处理就放在这里第二个位置
详情参考format用法菜鸟教程：http://www.runoob.com/python/att-string-format.html

Java川

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
实战--用BeautifulSoup提取数据--中国大学排名

import requestsimport bs4from bs4 import BeautifulSoup #将html文档变成更具有结构性的dom树，便于解析，提取数据#获取html界面def GetHtmlText(url): try: r=requests.get(url) r.encoding=r.apparent_encoding ...
复制链接

扫一扫

专栏目录