htmlcleaner爬取页面报contains未定义

最新推荐文章于 2024-03-24 09:39:56 发布

zhymin77

最新推荐文章于 2024-03-24 09:39:56 发布

阅读量480

点赞数

分类专栏：爬虫文章标签： scala htmlcleaner

本文链接：https://blog.csdn.net/zhymin77/article/details/84428853

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

htmlcleaner用xpath中查找node，若xpath调用contains函数会报：“org.htmlcleaner.XPatherException: Unknown function contains”。

htmlcleaner构建的Rootnode不能直接调用contains函数需要进行如下转换：

lazy val htmlCleaner = new HtmlCleaner
lazy val ISSNXPath = "//div[@class='bdy4']//b[contains(text(), '国际刊号')]"
def extract(path: String) = {
val root = htmlCleaner.clean(new File(path))
val doc = new DomSerializer(new CleanerProperties).createDOM(root)
val xpath = javax.xml.xpath.XPathFactory.newInstance.newXPath
val value = xpath.evaluate(ISSNXPath, doc, javax.xml.xpath.XPathConstants.NODE)
println(value)
val next = value.asInstanceOf[org.w3c.dom.Node].getNextSibling
println(next.getTextContent)
}
如上scala code所示：将htmlCleaner创建的根节点转为标准w3c节点，构建标准w3c XPath，进行查询即可。

对非Node后text类型文本的获取，可通过getNextSibling获得。
来自：[url]http://www.imilo.cn/findblog/28[/url]