Python核心内容

PythonBeautifulSoup：HTML/XML数据解析与爬虫入门指南,

原创于 2024-05-14 09:13:48 发布 · 610 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #开发语言 #爬虫

Python
- 【概念】
  - BeautifulSoup可以从HTML或XML文件中提取数据，与解析器一起使用，提供导航，搜索和修改解析树的惯用方法
- 【解析器】
  - 查看官方文档
- 【安装】
  - pip install bs4
  - pip install lxml
- 导入
  - from bs4 import BeautifulSoup
- 使用步骤
  - 1. 创建BeautifulSoup对象
    - soup = BeautifulSoup(html_doc,'lxml')
      - html_doc：HTML文档字符串
      - HTML解析器
    - soup常用方法
      - soup.prettify()
        
        按照标准的缩进格式结构输出
  - 2.解析数据
    - 标签
      - 查看标签
        
        soup.标签名
        
        eg：tag = soup.title
        
        注意：如果有多个相同的标签名，则会返回第一个
      - 查看所有的某个标签
        
        soup.find_all(标签名，属性)
        
        soup.find_all("标签名")
        
        eg：soup.find_all("a")
        
        soup.find_all(attrs={“属性名”：“属性值”})
        
        soup.find_all(属性=“属性值”)
      - 查看标签内容
        
        soup.标签名.string
        
        eg：soup.title.string
        
        tag.title
      - 根据属性值找标签
        
        soup.find(属性=“属性值”)
        
        注意：如果属性为class时，需要写成class_="属性值"
      - 上一节点标签名
        
        soup.标签名.parent.name
    - 属性
      - 获取标签的单个属性
        
        soup.标签名[‘属性名’]
        
        eg：soup.p['class']
        
        soup.标签名.get("属性名")
        
        eg：soup.a.get("href")
      - 获取标签的所有属性
        
        tag.attrs
  - 案例
    - 官网文档中案例，解析本地HTML资源
- 内容遍历方法
  - 下行遍历
    - .contents
    - .children
    - .descendants
  - 上行遍历
    - .parent
    - .parents
  - 平行遍历
    - .next_sibling
    - .previous_sibling
    - .next_siblings
    - .previous_siblings
  - 案例
    - 官网文档中案例，解析本地HTML资源
- 综合案例
  - 爬取“猫眼电影”排行榜
  - 爬取“最好大学网”排行

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。