Python爬虫学习笔记 (7) [初级] BeautifulSoup bs4 常用方法总结

本文总结了Python爬虫使用BeautifulSoup库解析网页的思路与常用方法,包括观察网页代码规律,定位目标标签,获取目标信息。重点介绍了find_all方法,并探讨了如何根据目标标签的特殊性定制搜索策略。
摘要由CSDN通过智能技术生成

更新日期: 2021.03.23

本节内容

前面的 bs4 学习笔记内容源自官网文档,逐一介绍了它的的诸多才艺。

本节内容如下:

  1. bs4 解析思路及常用方法。
  2. 定位目标标签 召之即来~
  3. 获取目标信息 探囊取物~

1. 解析思路及常用方法

使用 bs4 解析时,首先观察网页代码的规律,然后据此定位目标标签,接下来逐一获取目标信息。

1.1 观察网页代码规律

我习惯先观察网页的布局,然后查看目标信息出现的规律。比如上一节提到的 “慕课网免费课程首页”(链接:https://www.imooc.com/course/list)页面上的主要信息是40个课程,含图片,名称等信息。

按F12 显示网页代码,Ctrl +F 搜索第一个目标信息的关键词,比如 “疑难杂症”,查看出现的规律,发现这个关键词在整页代码中一共出现两次,推测可以使用 726 行的模式进行解析获取。再Ctrl +F 搜索第二个目标信息的关键词,如果代码模式和726行一样,就可以确定这个目标信息的获取方法了。
在这里插入图片描述

1.2 常用方法

本节主要就使用一个方法,find_all, 哈哈哈~~~

其他方法参见学习笔记:Python爬虫学习 - 从零开始 4 (学习BeautifulSoup bs4 靓汤)

2. 定位目标标签 召之即来~

2.1 定制网页代码

准备了以下三个标签,其中标了颜色的部分是需要在处理时注意的特殊情况:‘class’ 作为属性名称,属性名称含中划线,属性缺失,属性值包含空格。

在这里插入图片描述

2.2 常用方法总结~~~

既然认定它是目标标签,那它一定是有什么特别之处~

比如,标签名称与众不同,有某一个或几个特殊的属性,某个属性值符合预期,或者字符串符合一定的条件。那么,就根据它们的特殊之处构造搜索方法来获取这个标签~~

根据目标的特征及适用方法建立一个 “常用解析方法清单”。

在这里插入图片描述

2.3 上代码~~

from bs4 import BeautifulSoup
import re

my_doc = '''
<python_study star="505"
   class="L"
   version-year="2021"
   teacher="alex wang"
   <b> Python零基础入门</b></python_study>
        
<python_study
   class="M"
   version-year="2020"
   teacher="alice li"
   <b> Python从入门到精通</b></python_study>       
               
<crawler_study star="255"
   class="M L"
   teacher="alice zhang   "
   <b> Python爬虫零基础入门</b></crawler_study>
'''

soup = BeautifulSoup(my_doc, "lxml")

# 根据标签名称定位标签
print
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值