爬虫专题Task_2(bs4、xpath＆正则表达式)

最新推荐文章于 2024-07-23 14:36:35 发布

穆藩6211

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量140

点赞数

分类专栏： python爬虫笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_45033674/article/details/105716801

版权

python爬虫笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、bs4
1、简介
Beautiful Soup是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据
2、相关概念
1）beautifulsoup4：python库(可用pip命令进行安装)
2）BeautifulSoup：一个类，由安装的库进行导入
html = 标签树 = BeautifulSoup类
所以可以对HTML文件采用类的方法进行解析

import requests
from bs4 import BeautifulSoup
res = requests.get('https://python123.io/ws/demo.html')
demo = res.text     #这里不能缺少text
soup = BeautifulSoup(demo,'html.parser')
print(soup.prettify())

嵩天老师课程的截图，侵删
3）实例：soup = BeautifulSoup(html，‘html.parser’)
3、BeautifulSoup类的基本元素：嵩天老师课上的截屏，侵删

1）Tag 标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾；
2）Name 标签的名字，<p>…</p>的名字是p，格式：<tag>.name；
3）Attributes 标签的属性，字典形式组织，格式：<tag>.attrs
4）NavigableString 标签内非属性字符串，<>…</>中字符串，格式：<tag>.string；
5）Comment 标签内字符串的注释部分,在html文本中有！号,一种特殊的Comment类型；
注：4)和5)都可以通过<tag>.string调出,但两者类型不一样,可以通过type()进行区别
相关代码：

import requests
from bs4 import BeautifulSoup
res = requests.get('https://python123.io/ws/demo.html')
demo = res.text     #这里不能缺少text
soup = BeautifulSoup(demo,'html.parser')
soup.title
soup.a   #获取a标签，返回：<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>
soup.a.name #获取a标签的名称，返回 'a'
tag = soup.a
tag.attrs #获取标签的属性，返回 {'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
tag.attrs['class'] #标签属性内容的提取，返回 ['py1']
tag.attrs['href']
type(tag.attrs) #返回dict
type(tag) #返回 bs4.element.Tag
tag.string #返回 'Basic Python'

4、标签树的遍历
同上，侵删
1）标签树的下行遍历
在这里插入图片描述
[外链图片转存中…(img-4XkltSQd-1587650690572)]

穆藩6211

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫专题Task_2(bs4、xpath＆正则表达式)

一、bs41、简介Beautiful Soup是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据2、相关概念1）beautifulsoup4：python库(可用pip命令进行安装)2）BeautifulSoup：一个类，由安装的库进行导入html = 标签树 = BeautifulSoup类所以可以对HTML文件采用类的方法进行解析import requ...
复制链接

扫一扫

专栏目录