爬虫(二):bs4和正则表达式

  • Task02:bs4、xpath和正则表达式

0.前言

小咸鱼又来打卡啦~
今天主要从两个方面展开我的学习记录。- >见大标题

1.BeautifulSoup

名叫美丽汤,是一个库,继requests之后的第二个库。
什么作用呢,大概意思是说,它可以使得无序的html源码变得有序起来,比较有层次感。
官方:
Beautiful Soup:解析HTML页面信息标记与提取方法
首先安装也比较简单,pip install beautifulsoup4即可。
第二步是导入:from bs4 import BeautifulSoup
第三步,创建 Beautiful Soup对象soup=BeautifulSoup(html,‘html.parser’)
其中,'html.parser’是一个常用的解析器。‘html’是我们获取的内容

Beautiful Soup库四种解析器:

解析器使用方法条件
bs4的HTML解析器BeautifulSoup(mk, ‘html.parser’)安装bs4库
lxml的HTML解析器BeautifulSoup(mk, ‘lxml’)pip install lxml
lxml的XML解析器BeautifulSoup(mk, ‘xml’)pip install lxml
html5lib的解析器BeautifulSoup(mk, ‘html5lib’)pip install html5lib

Beautiful Soup类的基本元素

基本元素说明
Tag标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾
Name标签的名字,<p></p>的名字是’p’,格式:<tag>.name
Attributes标签的属性,字典形式组织,格式:<tag>.attrs
NavigableString标签内非属性字符串,<>…</>中字符串,格式:<tag>.string
Comment标签内字符串的注释部分,一种特殊的Comment类型

2.正则表达式

正则表达式:regular expression regex RE

正则表达式是用来简洁表达一组字符串的表达式

正则表达式在文本处理中十分常用

  • 表达文本类型的特征(病毒、入侵等)
  • 同时查找或替换一组字符串
  • 匹配字符串的全部或部分

正则表达式的使用
编译:将符合正则表达式语法的字符串转换成正则式表达特征

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值