示例代码如下:
<div>
<p>123154872313</p>
<p>test
<em>http://baidu.com</em>
</p>
</div>
p标签下的内容一般是网页文本内容,文本中的会再插入一些标签,最难的应该是em标签(这类标签一般提取不出来),所以在使用etree将其换成html格式前,先用replace将em替换成其他的一些标签;
提取div标签下的所有内容的代码如下:
html.xpath('//div//p//text()') # 这样就得到了所有的内容
在提取出目标内容后,在用一个for循环将其拼起来就ok了