【python】抓取指定网站的内容 lxml格式

最新推荐文章于 2024-09-09 23:28:21 发布

weixin_46119920

最新推荐文章于 2024-09-09 23:28:21 发布

阅读量158

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_46119920/article/details/129272225

版权

实现功能的关键代码

#基础条件 打开网址 与 将网址做成lxml 的库
from urllib.request import urlopen
from bs4 import BeautifulSoup #载入bs4的库

url = urlopen('网址') #打开网页
url.read()  #提取网址资源
url_lxml = BeautifulSoup(url, 'lxml')   #把代码转lxml格式 返list
url_table = url_lxml.find_all('table')[1]   #确定找第几个table 返list
url_all_tr = url_table.find_all('tr')   #找到所有的tr 返list
url_all_tr.pop(0)   #删除序列为1的
xxx.text    #提炼出纯文字 接下来就配合循环

实例1：

示例步骤

打开网址

转成lxml树结构

筛选出要抓取的层级

删除一些不要的

循环遍

r = urlopen('https://www.boc.cn/sourcedb/whpj/')  # 打开网页
c = r.read()  # 获得资源 字节代码
bs_obj = BeautifulSoup(c, 'lxml')  # 用lxml格式显示
t = bs_obj.find_all('table')[1]  # 罗列所有表格 并确定到第二个
all_tr = t.find_all('tr')  # 选择tr级进行操作 表格是一行行的
all_tr.pop(0)  # 表格是一行行的 删除第一个注释标题 列表

for i in all_tr:
    a = i.find_all('td')
    print(a[0].text, a[2].text)