爬虫bs4与xpath

本文介绍了Python爬虫中两种常用的库——bs4和xpath的安装及使用方法。通过创建BeautifulSoup对象和etree对象,分别演示了如何通过它们获取页面元素的文本和属性值。示例代码展示了如何从网页中提取指定标签下的属性信息,例如提取图片的src属性。此外,还分享了在Firefox和Chrome中快速复制xpath表达式的小技巧。
摘要由CSDN通过智能技术生成


bs4

bs4为python的一个第三方库

安装

使用pip3下载: pip3 install bs4
导入方法:from bs4 import *
本次练习爬虫:from bs4 import BeautifulSoup

方法:

首先创建一个BeautifulSoup对象,参数一为页面源码数据,第二个参数为:“lxml”

soup = BeautifulSoup(page_txt,“Lxml”)
soup.a 返回页面源码中第一个a标签中的数据
soup.find(“a”) 也是返回页面源码中第一个a标签中的数据
还可以根据属性值来返回如:
soup.find(“div”,class_=“shuxing”) 返回div的class属性为shuxing的标签数据
soup.find_all(“a”) 返回页面源码中所有的数据,返回形式为列表
soup.select(".tang") 返回属性为tang标签的数据
soup.select(".tang > ul > li > a")返回tang属性标签下的ul标签下的li标签下的a标签下的数据,返回形式为列表

返回文本:

soup.select(".tang > ul > a")[0].text/get_text()/string 多个层级可以用空格代替,string只能返回直系子标签的文本

返回属性值:

soup.select(".tang > ul > a")[0][“href”] 返回a标签的href属性

测试:

在这里插入图片描述
如同所示:div属性为list下的ul标签下的li标签下的a标签下的第五个img标签中的src属性为图片地址
则为:soup.select(".list > ul > li > a > img")[5][“src”]

代码如下:

from bs4 import BeautifulSoup
import requests

def main():
    url = "http://www.netbian.com/s
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值