今日份爬虫与数据处理

BeautifulSoup4的使用:
创建一个bs4的对象,soup=BeautifulSoup(‘html’,’ 解析方式’)
之后我们可以使用soup.Tag ,tag是某一标签,为获取他的内容\

<p class=‘title’ name=‘dromouse’>你好</p>

当然我们标签就有两个重要的属性name和attrs,是指名字和属性,
对于tag来说,他的名字就是他的标签名,soup.p.name的名字就是p
*attrs是一个字典类型。soup.p.attrs输出的就可能是{class:[‘title’],name:‘dromouse’}
当然也可以这样去获取某一属性 soup.p.attrs[‘class’]/soup.p[‘class’],得到的是一个[‘title’](列表)

get方法:
get方法用得到标签下的属性值,注意这是一个重要的方法,比如你要得到<img src="#">
标签下的url,那么就可以使用soup.img.get(‘src’)

String方法
得到标签下的文本内容,只有在此标签下没有子标签或者一个子标签才会返回其中的内容

get_text方法:
可以得到一个标签中的所有文本内容

**搜索文档树find_all(name,attrs,recursive,text,kwargs)

返回的是一个列表 如查找所有p标签
soup.find_all(‘p’)
text参数时可以搜索文档中的字符串内容。
我们还可以添加limit参数,当文档树很大那么搜索很慢,我们可以设置limit参数限制返回的结果数量。

CSS选择器:
在写css时,标签名不佳任何修饰,id前面加#。这这里我们也可以运用相似的方式来筛选元素,运用的是soup.select(),返回类型是list
1.通过id名查找 :
soup.select(’#link’)
2.组合查找:
查找p标签下id为link1 soup.select(‘p #link1’)
查找子标签 soup.select(‘head>title’)
3.属性查找:
查找时候还可以加入属性元素,属性用中括号括起来,标签与属性为同一节点时,中间不能加空格soup.select(‘a[class=“sister”]’)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值