bs4
bs4为python的一个第三方库
安装
使用pip3下载: pip3 install bs4
导入方法:from bs4 import *
本次练习爬虫:from bs4 import BeautifulSoup
方法:
首先创建一个BeautifulSoup对象,参数一为页面源码数据,第二个参数为:“lxml”
soup = BeautifulSoup(page_txt,“Lxml”)
soup.a 返回页面源码中第一个a标签中的数据
soup.find(“a”) 也是返回页面源码中第一个a标签中的数据
还可以根据属性值来返回如:
soup.find(“div”,class_=“shuxing”) 返回div的class属性为shuxing的标签数据
soup.find_all(“a”) 返回页面源码中所有的数据,返回形式为列表
soup.select(".tang") 返回属性为tang标签的数据
soup.select(".tang > ul > li > a")返回tang属性标签下的ul标签下的li标签下的a标签下的数据,返回形式为列表
返回文本:
soup.select(".tang > ul > a")[0].text/get_text()/string 多个层级可以用空格代替,string只能返回直系子标签的文本
返回属性值:
soup.select(".tang > ul > a")[0][“href”] 返回a标签的href属性
测试:

如同所示:div属性为list下的ul标签下的li标签下的a标签下的第五个img标签中的src属性为图片地址
则为:soup.select(".list > ul > li > a > img")[5][“src”]
代码如下:
from bs4 import BeautifulSoup
import requests
def main():
url = "http://www.netbian.com/s
本文介绍了Python爬虫中两种常用的库——bs4和xpath的安装及使用方法。通过创建BeautifulSoup对象和etree对象,分别演示了如何通过它们获取页面元素的文本和属性值。示例代码展示了如何从网页中提取指定标签下的属性信息,例如提取图片的src属性。此外,还分享了在Firefox和Chrome中快速复制xpath表达式的小技巧。
最低0.47元/天 解锁文章

2375

被折叠的 条评论
为什么被折叠?



