惊呆了,我的 Python 代码里面出现了薛定谔的 Bug,看看我是怎么解决的。

本文讲述了作者在处理 HTML 代码时遇到的一个神秘 Bug,即元素的提取结果在观察与不观察时表现不同。问题源于 Python 的垃圾回收机制,通过缓存的 Key 选择不当导致元素对象被回收。解决方案是使用 XPath 作为唯一标识,确保每个元素对应唯一的缓存,从而修复问题。
摘要由CSDN通过智能技术生成

问题背景

先来看一段代码:

 

图1

 

 

这段代码读取tests/163/9.html这个文件里面的 HTML 代码,分别获取 <body> 下面的所有标签内部的所有<a>标签中的文本。说起来可能有点绕口,我举个例子。

<body>
    <div>
        <a href="/xx">你好</a>
    </div>
    <h2>
        <a>世界</a>
    </h2>
</body>
复制代码

分别获取<div>标签和<h2>标签下面的<a>标签中的文本,也就是你好世界

但这段代码有个问题,就是对于嵌套结构的标签,会重复提取。例如:

<body>
    <div>
        <h2>
            <a href="/xx">你好</a>
        </h2>
    </div>
</body>
复制代码

首先,获取<div>标签下面的<a>标签&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值