实战--用BeautifulSoup提取数据--中国大学排名

import requests
from bs4  import BeautifulSoup  #将html文档变成更具有结构性的dom树,便于解析,提取数据


#获取html界面
def GetHtmlText(url):   
  try:
      r=requests.get(url)
      r.encoding=r.apparent_encoding
      return r.text
  except:
      return "网页获取失败"

def FillUnivList(ulist,html):
  soup=BeautifulSoup(html,'html.parser')
  for tr in soup.find('tbody').children: #遍历tbody内的所有tr标签
    if isinstance(tr,bs4.element.Tag):  #将非tr标签部分过滤掉,而将tr标签作进一步处理
      tds=tr('td')         #将所有tr标签内的td标签做查询并放入ulist列表
      ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
  #将tds的前四个td标签 (我们需要的数据),放入ulist列表


def PrintUnivList(ulist,num):
  tplt="{0:^10}\t{1:{4}^10}\t{2:<10}\t{3:<15}"
  print(tplt.format('排名','学校名称','省市','分数',chr(12288))+'\n'+'\n') #参考format用法
  for i in range(num):    #遍历num个大学信息 并将num个大学信息输出
      u=ulist[i]   
      print(tplt.format(str(u[0]),str(u[1]),str(u[2]),str(u[3]),chr(12288))) 
  return u
"""
def SaveUnivList(u):
  r=print("{:^10}\t{:<10}\t{:<20}\{:<30}".format(u[0],u[1],u[2],u[3])) 
  with open(''大学排名.txt,'wb') as f:
    if f.write(r.text):
       f.close()
       print('保存成功')
    else:
       print('保存失败')
"""
    
  
def main():
  uinfo=[]  #每一个大学的信息放到一个列表中
  url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
  #爬前200名
  num=200
  
  html=GetHtmlText(url)
  FillUnivList(uinfo,html)
  PrintUnivList(uinfo,num)
  #SaveUnivList(l)

if __name__=="__main__":
  main()

值得注意的是:
#format 中英文格式混合输出 对不齐的问题 解决方法:
‘’’
问题一:{4}为什么是4
tplt="{0:10}\t{1:{4}10}\t{2:<10}\t{3:<30}" 其中{4}代表的是chr(12288)中文空格,在第5个位置,索引是0开始,所以是4

问题二:为什么{4}放在第二个位置?
因为学校名称那里会对不齐 需要处理 就放在这里第二个位置
详情参考format用法菜鸟教程:http://www.runoob.com/python/att-string-format.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值