BeautifulSoup笔记

最新推荐文章于 2021-06-06 14:56:51 发布

xiaobai_IT_learn

最新推荐文章于 2021-06-06 14:56:51 发布

阅读量154

点赞数

分类专栏：爬虫笔记文章标签：爬虫 beautisoup css选择器 find find_all

本文链接：https://blog.csdn.net/xiaobai_IT_learn/article/details/101313324

版权

笔记同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

爬虫

21 篇文章 1 订阅

订阅专栏

1.安装

pip install BeautifulSoup4

2.find和find_all

find_all()  # 所有符合结果 <class 'bs4.element.ResultSet'>
find() # 符合条件的第一个 <class 'bs4.element.Tag'>
.get_text()  # 获取文本内容
>tag.find('span').get_text()
.attrs['属性']  # 获得list
.get('class')  # 获得list
>tag.find('span').attrs['class']
>tag.find('span').get('class')
1.按标签查找
>soup.find('a')
2.按类查找
>soup.find(class_= 'item')
>>soup.find(attrs={'class': 'item'})
3.按id查找
>soup.find(id = 'item')
>soup.find(attrs = {'id':'item'})
4.正则匹配
>soup.find_all(name=re.compile('b'))
>soup.find_all(class_=re.compile('b'))
>>>列子
soup = BeautifulSoup(html_str, 'lxml')
span_list = soup.find('div', class_='category-class category-class1').find_all('span', class_='category-item')
print(type(span_list))  # <class 'bs4.element.ResultSet'>
for tag in span_list:
    print(type(tag))  # <class 'bs4.element.Tag'>
    print(tag.find('span').get_text())

3.css选择器

soup.select("title")
soup.select("html head title")
soup.select('#link1')
soup.select("p > #link1")  # >下一节点
soup.select("a[href='https://www.baidu.com']")

xiaobai_IT_learn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup笔记

1.安装pip install BeautifulSoup42.find和find_allfind_all() # 所有符合结果 <class 'bs4.element.ResultSet'>find() # 符合条件的第一个 <class 'bs4.element.Tag'>.get_text() # 获取文本内容>tag.find('span')...
复制链接

扫一扫