问题背景
先来看一段代码:
这段代码读取tests/163/9.html
这个文件里面的 HTML 代码,分别获取 <body>
下面的所有标签内部的所有<a>
标签中的文本。说起来可能有点绕口,我举个例子。
<body>
<div>
<a href="/xx">你好</a>
</div>
<h2>
<a>世界</a>
</h2>
</body>
复制代码
分别获取<div>
标签和<h2>
标签下面的<a>
标签中的文本,也就是你好
和世界
。
但这段代码有个问题,就是对于嵌套结构的标签,会重复提取。例如:
<body>
<div>
<h2>
<a href="/xx">你好</a>
</h2>
</div>
</body>
复制代码
首先,获取<div>
标签下面的<a>
标签&#x