基于bs4的HTML遍历

最新推荐文章于 2021-05-18 08:20:16 发布

Ray7J

最新推荐文章于 2021-05-18 08:20:16 发布

阅读量157

点赞数

分类专栏： BeautifulSoup

本文链接：https://blog.csdn.net/weixin_44849887/article/details/90522919

版权

BeautifulSoup 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

![HTML的基本格式
](https://img-blog.csdnimg.cn/20190524204703327.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDg0OTg4Nw==,size_16,color_FFFFFF,t_70

遍历的实例如下：

from bs4 import BeautifulSoup
import requests

url="https://www.kaola.com/"
r=requests.get(url)
r.encoding=r.apparent_encoding
soup=BeautifulSoup(r.text,"html.parser")
print(soup.head)
print(soup.body.contents)  #结果为一个列表，子节点的列表
print(len(soup.body.contents))

#遍历儿子节点
for child in soup.body.children:
    print(child)

#遍历子孙节点
for child in soup.header.descendants:
    print(child)

#标签树的上行遍历
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

#平行遍历
print(soup.a.next_sibling)  #遍历后续节点
print(soup.a.previous_sibling)  #遍历前续节点

在这里插入图片描述
更好地阅读：

(soup.a.prettify())  #规范化，更好的阅读

结果

<a class="app" data-param="from=topDownload&amp;zn=top" href="//app.kaola.com" rel="nofollow">
 手机考拉
 <span class="m-notice">
  <img height="116px" src="https://haitao.nos.netease.com/9c6b0d6c-4a71-4018-8fb6-46496f51caff.png" width="116px"/>
  <strong class="txt">
   下载APP
   <br/>
   领1000元新人礼包
  </strong>
  <span class="arrow">
   <span class="arr">
   </span>
   <span class="arr1">
   </span>
  </span>
 </span>
</a>

它在每个标签后都加了\n，也能对中文有很好的支持。

Ray7J

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于bs4的HTML遍历

![HTML的基本格式](https://img-blog.csdnimg.cn/20190524204703327.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDg0OTg4Nw==,size_16,color...
复制链接

扫一扫