笔记002:BeautifulSoup中超实用的find_all()

初使用BeautifulSoup总是觉得哪里不顺手,网页要不下载不全,要不垃圾数据太多不好清理

headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:103.0) Gecko/20100101 Firefox/103.0'}
    htmlmoban = "https://xxxxxxx/whole.html"
    requests_html = requests.get(htmlmoban, headers=headers)
    requests_html.encoding = 'gbk'
    #print(requests_html)
    soup = BeautifulSoup(requests_html.text, "lxml")
    html_list = soup.find_all("div", {"class": {"novellist"}}) #选择class="novellist"所有的
    #print(html_list)
    html_list1 = str(html_list)
    #print(html_list1)
    with open('file/01.txt', 'w', encoding='utf-8') as fw1:
        fw1.write(str(html_list))
        fw1.close()

 查了资料后,发现find_all()里面有个attributes属性,可以定义class等

关键在:soup.find_all("div", {"class": {"novellist"}})

使用后,只查找<div class="novellist"></div>的所有数据。

初学者,摸索中……

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值