今日份爬虫与数据处理

最新推荐文章于 2024-03-19 10:49:58 发布

勿言欢丶

最新推荐文章于 2024-03-19 10:49:58 发布

阅读量176

点赞数

分类专栏：各种杂物

本文链接：https://blog.csdn.net/weixin_43903173/article/details/98883754

版权

各种杂物专栏收录该内容

12 篇文章 0 订阅

订阅专栏

BeautifulSoup4的使用：
创建一个bs4的对象，soup=BeautifulSoup(‘html’,’ 解析方式’)
之后我们可以使用soup.Tag ，tag是某一标签，为获取他的内容\

<p class=‘title’ name=‘dromouse’>你好</p>

当然我们标签就有两个重要的属性name和attrs,是指名字和属性,
对于tag来说，他的名字就是他的标签名，soup.p.name的名字就是p
*attrs是一个字典类型。soup.p.attrs输出的就可能是{class:[‘title’],name:‘dromouse’}
当然也可以这样去获取某一属性 soup.p.attrs[‘class’]/soup.p[‘class’]，得到的是一个[‘title’]（列表）

get方法：
get方法用得到标签下的属性值，注意这是一个重要的方法,比如你要得到<img src="#">
标签下的url，那么就可以使用soup.img.get(‘src’)

String方法
得到标签下的文本内容，只有在此标签下没有子标签或者一个子标签才会返回其中的内容

get_text方法:
可以得到一个标签中的所有文本内容

**搜索文档树find_all(name,attrs,recursive,text,kwargs)

返回的是一个列表如查找所有p标签
soup.find_all(‘p’)
text参数时可以搜索文档中的字符串内容。
我们还可以添加limit参数,当文档树很大那么搜索很慢，我们可以设置limit参数限制返回的结果数量。

CSS选择器：
在写css时，标签名不佳任何修饰，id前面加#。这这里我们也可以运用相似的方式来筛选元素,运用的是soup.select(),返回类型是list
1.通过id名查找：
soup.select(’#link’)
2.组合查找:
查找p标签下id为link1 soup.select(‘p #link1’)
查找子标签 soup.select(‘head>title’)
3.属性查找:
查找时候还可以加入属性元素,属性用中括号括起来,标签与属性为同一节点时，中间不能加空格soup.select(‘a[class=“sister”]’)

勿言欢丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
今日份爬虫与数据处理

BeautifulSoup4的使用：创建一个bs4的对象，soup=BeautifulSoup(‘html’,’ 解析方式’)之后我们可以使用soup.Tag ，tag是某一标签，为获取他的内容\<p class=‘title’ name=‘dromouse’>你好</p>当然我们标签就有两个重要的属性name和attrs,是指名字和属性,对于tag来说，他的名...
复制链接

扫一扫

专栏目录