Python核心内容

  • Python

    • 【概念】

      • BeautifulSoup可以从HTML或XML文件中提取数据,与解析器一起使用,提供导航,搜索和修改解析树的惯用方法

    • 【解析器】

      • 查看官方文档

    • 【安装】

      • pip install bs4

      • pip install lxml

    • 导入

      • from bs4 import BeautifulSoup

    • 使用步骤

      • 1. 创建BeautifulSoup对象

        • soup = BeautifulSoup(html_doc,'lxml')

          • html_doc:HTML文档字符串

          • HTML解析器

        • soup常用方法

          • soup.prettify()

            • 按照标准的缩进格式结构输出

      • 2.解析数据

        • 标签

          • 查看标签

            • soup.标签名

              • eg:tag = soup.title

            • 注意:如果有多个相同的标签名,则会返回第一个

          • 查看所有的某个标签

            • soup.find_all(标签名,属性)

            • soup.find_all("标签名")

              • eg:soup.find_all("a")

            • soup.find_all(attrs={“属性名”:“属性值”})

            • soup.find_all(属性=“属性值”)

          • 查看标签内容

            • soup.标签名.string

              • eg:soup.title.string

            • tag.title

          • 根据属性值找标签

            • soup.find(属性=“属性值”)

            • 注意:如果属性为class时,需要写成class_="属性值"

          • 上一节点标签名

            • soup.标签名.parent.name

        • 属性

          • 获取标签的单个属性

            • soup.标签名[‘属性名’]

              • eg:soup.p['class']

            • soup.标签名.get("属性名")

              • eg:soup.a.get("href")

          • 获取标签的所有属性

            • tag.attrs

      • 案例

        • 官网文档中案例,解析本地HTML资源

    • 内容遍历方法

      • 下行遍历

        • .contents

        • .children

        • .descendants

      • 上行遍历

        • .parent

        • .parents

      • 平行遍历

        • .next_sibling

        • .previous_sibling

        • .next_siblings

        • .previous_siblings

      • 案例

        • 官网文档中案例,解析本地HTML资源

    • 综合案例

      • 爬取“猫眼电影”排行榜

      • 爬取“最好大学网”排行

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值