第二章 网络爬虫之提取 3-1 Beautiful Soup库入门

文章截图均来自中国大学mooc Python网络爬虫与信息提取的教程,以上仅作为我的个人学习笔记。

下面是教程链接:https://www.icourse163.org/learn/BIT-1001870001?tid=1450316449#/learn/content?type=detail&id=1214620493&cid=1218397635&replay=true


Beautiful Soup(美味汤)库的安装:

  • 可以对HTML、XML格式进行解析,并且提取其中的相关信息

BeautifulSoup类:

Beautiful Soup库 解析器:

Beautiful Soup类 基本元素:

标签获取:

标签名字:

标签属性:

标签之间的字符串:

出现注释部分处理方法:

基于bs4库的HTML内容遍历方法:

回顾demo.html:

事实上无论是HTML、XML都是树形格式的:形成了三种遍历方法。

   

  • 下行遍历:

可以用for in 的形式遍历

  • 上行遍历

  • 平行遍历:前提是所有的平行遍历必须发生在同一个父亲节点下的各节点之间

         

遍历小结:

基于bs4库的html格式输出:(如何才能让html更加有好的显示?)

  • .prettify方法:会在标签后面加上换行符'/n';可以用print函数将相关信息打印出来:会变得非常清晰

;                 

bs4库的编码:使用国际通用的utf-8(可以识别中文)

单元小结:

  • 首先我们要知道bs4库:bs4库是用来解析html、xml文档的功能库
  • 使用方法非常简单:from bs4 import BeautifulSoup(注意B、S是大写)、通过相关的解析器对目标文档进行解析
  • bs4库提供了5中可以使用的元素

          

  • 遍历所有标签树的基本方法(以及各种不同的遍历结果类型):上行、下行、平行
  • 基于bs4库的文档格式输出

展望:

需要进一步了解掌握一些信息提取的方法 。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值