19.bs4 BeautifulSoup处理数据

#author: zoe
#date: 2020/5/17
from bs4 import BeautifulSoup
import os
import re

file= open("./baidu.html",‘rb’)
html= file.read().decode(“utf-8”)
bs = BeautifulSoup(html,‘html.parser’)

print(bs.title) #打印title

print(bs.head.contents) # 打印head

#print(bs.head.contents[1]) #打印第一个mata
#fd= bs.find_all(‘a’) ###find_all 字符串过滤
#fd = bs.find_all(re.compile(‘a’))

def find_Name(tag):

return tag.has_attr(‘name’)

fd = bs.find_all(text=re.compile(’\d’)) #用正则表达式来查找文本中包含特定文本的内容(标签里的字符串)

#fd = bs.find_all(‘a’,limit=3) #限制显示3个

##CSS选择器
#fd = bs.select(‘title") #用标题查找
#fd = bs.select(’.mnav’) ##.mnav 显示出所有类名
#fd = bs.select(’#u1’) #用id’u1’来查找

fd = bs.select(“a[class=‘bri’]”) #通过属性来查找,a类别中的bri方法

fd = bs.select(“head > title”) #通过子标签来查找

fd = bs.select(’.mnav ~ .bri’) #查找mnav的兄弟标签
print(fd[0].get_text()) #打印第一个结果的文本

for i in fd:

print(i)

#print(fd)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值