爬虫基础（4）

最新推荐文章于 2024-07-17 23:50:36 发布

Fergus awsl

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量143

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_43650411/article/details/91049770

版权

该博客介绍了如何使用Python进行定向爬虫，以从最好大学网站抓取大学的排名、名称和总分信息。通过getHtmlText()获取网页内容，fillUnivList()进行内容提取并结构化，最后printUnivList()展示结果。文章还涉及了代码的编写和复习，对format函数的使用进行了优化，以改善中英输出的排版。

摘要由CSDN通过智能技术生成

目标
定向爬虫思路
代码
复习format（优化中英输出排版）
附注：Mooc-python网络爬虫与信息提取

目的
从最好大学网，获取：大学排名、名称、总分
思路：定向爬虫
- 仅对输入url爬取，不拓展
- 结构设计
1. 获取大学排名 – getHtmlText()
2. 提取网页内容至合适结构 – fillUnivList()
3. 展示 – printUnivList()
- 接口设计
- 编程
代码

# -*- coding: utf-8 -*-
'''
从最好大学网，获取：大学排名、名称、总分
1.获取网页
2.解析网面
3.输入

- 查询网站robots公告，发现无公告，默认随意爬
- 编程提取前30名
    - 查看网页源码
    - 
'''

from bs4 import BeautifulSoup
import requests, bs4

class spider(object):
    def __init__(self):
        self.url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
        self.__ulist = []
    
    def getHtmlText(self):
        try:
            req = requests.get(self.url)
            req.raise_for_status()
            re