关于HtmlParser提取标签不完整的问题(HtmlParser扩展)

HtmlParser可用来解析html,但它并不认识所有标签,如font,strong和自定义标签...而遇到它不认识的标签时提取出来的内容只会是这个标签的开始标签.

例如有段Html是<strong>加粗字体</strong> ,如果用NodeList nodeList = parser.parser(new TagNameFilter("strong"));提取的话结果就是<strong> .如果想让提取结果是完整的<strong>加粗字体</strong>,则要扩展HtmlParser,让它认识这个标签,方法是自定义一个类继承自HtmlParser,然后利用PrototypicalNodeFactory在静态代码块中注册新的标签.当然,新的标签类是事先写好的,代码如下:

 

扩展的新标签类如下:

 

 

在需要创建HtmlParser对象时只需创建MyParser对象即可.

另附

htmlparser.jar: http://download.csdn.net/source/3099671

htmllexer.jar:http://download.csdn.net/source/3099676

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值