做个类似的蜘蛛抓页，抓回的页如何去除html，js,cssj,剩余网页的内容？ (转）

最新推荐文章于 2022-08-12 16:27:32 发布

zixian2005

最新推荐文章于 2022-08-12 16:27:32 发布

阅读量1.1k

点赞数

分类专栏： Lucene.net搜索引擎文章标签： html function each

本文链接：https://blog.csdn.net/zixian2005/article/details/572610

版权

7 篇文章 0 订阅

订阅专栏

	回复人： babyt(阿泰) ( ) 信誉：100	2004-12-03 11:13:00	得分:0


	用这个函数过滤下你抓到的内容看看 <% Function RemoveHTML(strHTML) Dim objRegExp, Match, Matches Set objRegExp = New Regexp objRegExp.IgnoreCase = True objRegExp.Global = True '取闭合的<> objRegExp.Pattern = "<.+?>" '进行匹配 Set Matches = objRegExp.Execute(strHTML) ' 遍历匹配集合，并替换掉匹配的项目 For Each Match in Matches strHtml=Replace(strHTML,Match.Value,"") Next RemoveHTML=strHTML Set objRegExp = Nothing End Function %>
Top

关注

专栏目录