当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理
doc = pq(html)
doc('.article-t style').remove()
如上是:想要class为article里面的内容,但又不想要style标签中的内容,就可以通过以上把style标签删除,然后再提取article下的所有内容。
另一种情况,含有完整的标签时:
from w3lib.html import remove_tags
a = '<em><em>ai</em></em>工程师'
print(remove_tags(a))
ai工程师