【python】抓取指定网站的内容 lxml格式

实现功能的关键代码
#基础条件 打开网址 与 将网址做成lxml 的库
from urllib.request import urlopen
from bs4 import BeautifulSoup #载入bs4的库

url = urlopen('网址') #打开网页
url.read()  #提取网址资源
url_lxml = BeautifulSoup(url, 'lxml')   #把代码转lxml格式 返list
url_table = url_lxml.find_all('table')[1]   #确定找第几个table 返list
url_all_tr = url_table.find_all('tr')   #找到所有的tr 返list
url_all_tr.pop(0)   #删除序列为1的
xxx.text    #提炼出纯文字 接下来就配合循环

实例1:

示例步骤
打开网址
转成lxml树结构
筛选出要抓取的层级
删除一些不要的
循环遍
r = urlopen('https://www.boc.cn/sourcedb/whpj/')  # 打开网页
c = r.read()  # 获得资源 字节代码
bs_obj = BeautifulSoup(c, 'lxml')  # 用lxml格式显示
t = bs_obj.find_all('table')[1]  # 罗列所有表格 并确定到第二个
all_tr = t.find_all('tr')  # 选择tr级进行操作 表格是一行行的
all_tr.pop(0)  # 表格是一行行的 删除第一个注释标题 列表

for i in all_tr:
    a = i.find_all('td')
    print(a[0].text, a[2].text)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值