爬虫（二）：bs4和正则表达式

最新推荐文章于 2021-06-25 15:02:59 发布

Aymo

最新推荐文章于 2021-06-25 15:02:59 发布

阅读量984

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_45474785/article/details/105719846

版权

Task02：bs4、xpath和正则表达式

0.前言

小咸鱼又来打卡啦~
今天主要从两个方面展开我的学习记录。- >见大标题

1.BeautifulSoup

名叫美丽汤，是一个库，继requests之后的第二个库。
什么作用呢，大概意思是说，它可以使得无序的html源码变得有序起来，比较有层次感。
官方：
Beautiful Soup：解析HTML页面信息标记与提取方法
首先安装也比较简单，pip install beautifulsoup4即可。
第二步是导入：from bs4 import BeautifulSoup
第三步，创建 Beautiful Soup对象soup=BeautifulSoup(html，‘html.parser’)
其中，'html.parser’是一个常用的解析器。‘html’是我们获取的内容

Beautiful Soup库四种解析器：

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk, ‘html.parser’)	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk, ‘lxml’)	pip install lxml
lxml的XML解析器	BeautifulSoup(mk, ‘xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk, ‘html5lib’)	pip install html5lib

Beautiful Soup类的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，`<p>`…`</p>`的名字是’p’，格式：`<tag>`.name
Attributes	标签的属性，字典形式组织，格式：`<tag>.attrs`
NavigableString	标签内非属性字符串，<>…</>中字符串，格式：`<tag>.`string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

2.正则表达式

正则表达式：regular expression regex RE

正则表达式是用来简洁表达一组字符串的表达式

正则表达式在文本处理中十分常用

表达文本类型的特征（病毒、入侵等）
同时查找或替换一组字符串
匹配字符串的全部或部分

正则表达式的使用：
编译：将符合正则表达式语法的字符串转换成正则式表达特征

Aymo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫（二）：bs4和正则表达式

Task02：bs4、xpath和正则表达式0.前言小咸鱼又来打卡啦~今天主要从两个方面展开我的学习记录。- >见大标题1.BeautifulSoup名叫美丽汤，是一个库，继requests之后的第二个库。什么作用呢，大概意思是说，它可以使得无序的html源码变得有序起来，比较有层次感。官方：Beautiful Soup：解析HTML页面信息标记与提取方法首先安装也比较...
复制链接

扫一扫