Python的Beautiful Soup学习笔记

参考文章

# 安装好Python, 之后再安装bs4和lxml解析器
>>>pip install bs4
>>>pip install lxml
# -*- coding=utf8 -*-
from bs4 import BeautifulSoup

# 用lxml解析html这个文档
soup = bs4(html, 'lxml')

# 查找第一个出现的a标签
soup.find("a")

# 查找所有a标签, 返回值为列表
soup.find_all("a")

# 获取所有文件内容
soup.get_text()

# 获取a标签内class属性
tag_a = soup.find("a")
tag_a["class"]

# 获取a标签内的文字内容
tag_a = soup.find("a")
tag_a.string
# 可以直接转换为unicode字符串
unicode(tag_a.string)

# 加入正则表达式
import re 
# 找出所有含a的标签
soup.find_all(re.compile("a"))

# 找出所有含a、b标签
soup.find_all(["a", "b"])


# 详解find_all()
# 找出所有p标签中含有title属性的内容
soup.find_all("p", "title")

# 找出所有href属性符合这个正则表达式且id="link1"的内容
import re 
soup.find_all(href=re.compile("elsie"), id="link1")

# 找出所有a标签中有class为sister的内容,由于python含有class这个类名,产生冲突所以需要改成class_
soup.find_all("a", class_="sister")

# 找到所有a标签,限制返回列表的个数为2
soup.find_all("a", limit=2)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值